- 博客(266)
- 资源 (23)
- 收藏
- 关注

原创 豆瓣最新国产电影Top10
我这里整理了下豆瓣目前来说排名最高的国产电影Top10Top1经典台词:1.真虞姬,假霸王2.不疯魔不成活(巩俐当时颜值爆表啊)经典画面:Top2经典台词:1.曾经有一份真挚的爱情摆在我的面前,可是我没有珍惜,等到失去的时候才后悔莫及,尘世间最痛苦的事莫过于此.如果上天可以让我再来一次的话,我会对那个女孩子说三个字:我爱你.如果要给这份爱加一个期限,我希望是一万年.2.我的意中人是个盖世英雄,有一...
2018-02-04 12:27:53
2919

原创 换个眼界,换种心情
大家刚看我博客的时候肯定会好奇,为什么要起这个昵称呢,难道你会签名设计不成??? 在下不才,曾经在大学期间做过一段时间的签名设计,也就是小打小闹,体验了下过程罢了,不过经历还是值得回忆的。 以下是我的一些作品,不为别的,就为作为IT的我们换个眼界,没必要整天眼中都是代码什么的,放松一下心情吧。登录新浪微博可...
2017-07-23 15:30:44
1106
原创 浪潮服务器安装操作系统
一开始认为将镜像文件导入U盘即可,但实操中并不行,得首先将U盘制作成启动盘才行。打开刻录软件,选择光盘镜像文件,点击”写入硬盘映像”,以下是刻录过程的截图。首先需要确定安装的版本,我这里要安装的是。
2023-11-14 11:57:30
130
原创 Rclone 上传本地文件到 OSS
上面是通过 Amazon S3 协议挂载的 OSS,符合亚马逊 S3 标准的存储提供商,包括 AWS、阿里巴巴、Ceph、中国移动、Cloudflare、ArvanCloud、DigitalOcean、Dreamhost、华为OBS、IBM COS、IDrive e2、IONOS Cloud、Liara、Lyve Cloud、Minio、网易、RackCorp、Scaleway、SeaweedFS、StackPath、Storj、腾讯COS、Qiniu 和 Wasabi。
2023-11-13 12:00:27
347
原创 Hbase的bulkload流程与实践
通常MapReduce在写HBase时使用的是方式,在 reduce 中直接生成 put 对象写入HBase,该方式在大数据量写入时效率低下(HBase 会 block 写入,频繁进行 flush、split、compact 等大量 IO 操作),并对HBase节点的稳定性造成一定的影响(GC 时间过长,响应变慢,导致节点超时退出,并引起一系列连锁反应),而HBase支持bulk load的入库方式,它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接在HDFS中生成持久化的HFile。
2023-06-15 10:03:21
1821
转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。
2023-05-11 22:20:37
478
原创 Html 小功能总结一
当然有一种方式是在页面跳转前,先发个请求到后台将值存储到session中,跳转后再发个请求到后台取出。这种方式不仅仅慢而且还特别耗费资源。 以下有其他的几种方式:
2022-11-24 14:52:43
381
原创 Neo4j的安装和使用
Neo4j是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下,而不是严格、静态的表中。但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。 现实中很多数据都是
2022-06-15 16:05:48
1536
原创 大数据各组件安装(数据中台搭建)
文章目录一、基础环境配置(三台机器都操作)1.修改主机名:2.关闭防火墙:3.关闭Selinux:4.文件描述符配置:5.自定义JDK安装:5.1 删除默认openJDK:5.2 安装jdk1.8.0_91:6.创建Hadoop用户:7.配置SSH免密登录:二、大数据组件安装1.安装Zookeeper:2.安装Hadoop:3.安装Hbase:4.安装Hive:4.1 安装MySQL:4.2 部署Hive:5.安装kafka:6.安装Solr:7.安装Atlas:7.1 集成 Hbase:7.2 集成 So
2022-04-02 12:14:01
6999
3
原创 Docker实践与命令
安装docker:yum -y install docker下载镜像:docker search centos //搜索镜像启动容器: 因为是在1台虚拟机搭建3个docker的缘故,所以这次选择的docker 网卡类型为bridge模式(bridge模式容器ip无法自己指定),网段为 172.17.0.0/16 网关为172.17.0.1,三台容器的主机名和ip分别为:server 172.17.0.2agent1 172.17.0.3age
2022-03-21 15:50:34
1231
原创 Atlas学习二
文章目录一、安装atlas1.集成 Hbase:2.集成 Solr:3.集成 Kafka: 首先调大虚拟机内存为6G左右:一、安装atlasmvn clean -DskipTests package -Pdist,external-hbase-solr -Denforcer.skip=true# 由于atlas只提供源码,所以需要我们先将源码编译后,再将压缩包上传到服务器tar -zxvf apache-atlas-2.1.0-server.tar.gz1.集成 Hbase:root
2021-10-15 17:38:49
405
原创 Atlas学习一
文章目录一、apache-atlas-1.1.0-sources源码编译打包1.遇到的问题:2.启动:一、apache-atlas-1.1.0-sources源码编译打包源码包下载地址:apache-atlas-1.1.0-sources.tar.gz Atlas目前只能自行编译源码进行安装,Atlas使用java开发,但是是以python方式启动,所以安装之前,环境必须满足以下需求:jdk 1.8+maven3.xpython2.7+ 我把源码包上传到了CentOS服务器上(Cent
2021-10-12 19:04:37
1301
原创 大数据篇--Yarn资源队列配置和使用
文章目录一、前言二、调度器的选择三、Ambari2.7.4+HDP3.1.4.0中配置fair-scheduler一、前言 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。 试想一下,你现在所在
2021-09-30 09:46:49
6179
4
原创 Hadoop命令总结
文章目录一、hadoop fs命令二、yarn相关命令一、hadoop fs命令查看文件内容,配合more:hadoop fs -cat /in/hadoop-hadoop-namenode-h71.log | more统计hdfs中文件的行数:hadoop fs -cat /in/hadoop-hadoop-namenode-h71.log | wc -l 输出:16509查看hdfs中文件的前n行:hadoop fs -text file | head -n 100查看hdfs中文件的后n行
2021-08-20 09:27:17
1644
原创 Hive 之 API
JDBC 连接hive2, 程序挺简单, 跟其他数据库查询类似, 连接/执行查询/得到结果:package com.huiq.bigdata.test;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;public class ApiQueryTest { private static String driverNam
2021-08-11 15:41:21
1336
原创 算法篇--协同过滤
文章目录一、长尾理论二、协同过滤介绍1.基于用户的协同过滤算法(User-based CF,简称UserCF)一、长尾理论wiki链接:https://wiki.mbalib.com/wiki/%E9%95%BF%E5%B0%BE%E7%90%86%E8%AE%BA 长尾头部的商品往往代表了绝大多数用户的需求而长尾中的商品往往代表了一小部分用户的个性化需求。因此如果要通过发掘长尾来提高销售额就必须充分研究用户的个性化兴趣。而这正是个性化推荐系统主要解决的问题。 推荐系统通过发掘用户的行为找到用户
2021-08-04 17:24:59
2113
原创 算法篇--TF-IDF算法
文章目录一、前言二、简单实例一、前言 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是:如果某
2021-08-03 09:20:24
5797
原创 算法篇--倒排索引
文章目录一、前言二、单词——文档矩阵一、前言 见其名知其意,有倒排索引,对应肯定,有正向索引。正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次数和出现位置。 得到正向索引的结构如下:一般是通过key,去找value。“文档1
2021-08-01 20:24:00
4260
原创 SQL语句整理三--hive
文章目录创建数据库:使用数据库:重命名表名:建表时判断该表是否存在:查询某个表的分区信息:展示表结构:desc命令:将生成的结果导入到一个文件中:datediff,date_add和date_sub:创建数据库:create database jiuyebu;使用数据库:use jiuyebu;重命名表名:ALTER TABLE FaRen_JiChuShuJu141 RENAME TO FaRen_JiChuShuJu;建表时判断该表是否存在:create table if not
2021-07-13 14:30:29
583
原创 Scala学习
文章目录一、Windows下安装Scala一、Windows下安装Scala Scala是一种类似Java的纯面向对象的函数式编程语言,由于函数具有明确的确定输入对确定输出的关系,所以适合推理和计算,一切函数都可以看成一系列的计算组成,另外由于Scala函数是没有副作用和透明的,所以非常适合做多核并行计算和云计算,现在正被越来越多的应用到生产中 因为Scala运行在JVM上,所以应该首先配置好JDK环境,然后下面是Windows安装Scala环境的过程: 首先去官网http://www.sca
2021-07-05 18:53:05
306
原创 大数据篇--中台概念总结
文章目录一、前言二、概述三、什么是数据中台四、数据处理需求的演进历程五、数据中台和数据仓库、数据平台的区别六、结尾一、前言 现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑; 企业层面的有数字化转型、互联网经济,数字经济、数字平台; 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱; 技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞… 二、概述
2021-06-29 17:28:24
1279
原创 大数据篇--数仓概念总结
文章目录一、数据仓库1.什么是数据仓库:2.技术发展历程:3.数据仓库特点:4.OLAP和OLTP的区别:参考:数仓基础概念一、数据仓库1.什么是数据仓库: 数据仓库,英文名称为Data Warehouse,关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriente
2021-06-24 22:52:53
2102
原创 厨神之路九--群英荟萃2
文章目录一、灯笼虾一、灯笼虾煮虾:等锅中水开倒入虾,再放入生姜片和料酒去腥用,煮个三五分钟捞出即可。土豆泥制作:土豆(大约150克)削皮切片煮熟或者蒸熟(用小刀可以轻易戳穿土豆块即可)。再加入2茶匙黄油,倒入20ml牛奶,适量盐和黑胡椒,我这里还用到了豌豆和玉米粒(后来感觉完全没必要用),碾碎即可。这个做土豆泥最大的左右就是用来黏合虾的排盘,考虑到家常性也可以用米饭来代替。排盘:将土豆泥揉成两个球放在盘中,将虾头去掉,虾皮剥掉,依次在土豆泥球上摆一圈。红青椒圈切完之后可能不好看可以再用小刀修饰
2021-06-15 22:05:31
184
原创 大数据篇--Spark常见面试题总结二
文章目录一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用:结合Scala来学习一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用:结合Scala来学习...
2021-06-08 12:45:24
217
原创 大数据篇--Spark常见面试题总结一
文章目录一、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介:2.spark on yarn cluster 模式:3.spark on yarn client 模式:一、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介:ResourceManager:负责整个集群的资源管理和资源分配NodeManager:每个节点的资源和任务的管理器,负责启动和停止Container,并监视资源使用情况ApplicationMaster:Yarn中每个Appli
2021-06-02 12:24:47
668
1
原创 大数据篇--数据倾斜
文章目录一、什么是数据倾斜一、什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,造成数据热点问题(数据倾斜的另一种说法),这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。现象:大部分的task都非常快速的处理完成,只有极少数的task处理的非常慢,这种状况很可能就是数据倾斜了。对于Spark可以在WEB-UI的job=>stage=>task里看,你可以把task处理的数据量排序一下。上面场景下
2021-06-01 12:41:11
2260
原创 大数据篇--Kafka数据丢失、重复与消息顺序保证
文章目录一、Kafka如何实现每秒上百万的超高并发写入二、数据重复1.Consumer重复消费数据:三、数据丢失四、Kafka的优化建议1.broker端:一、Kafka如何实现每秒上百万的超高并发写入 Kafka 是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。可参考这篇文章:页缓存技术 + 磁盘顺序写 + 零拷贝技术二、数据重复1.Consumer重复消费数据: 底层根本原因:已经消费了数据
2021-05-30 17:52:42
1830
1
原创 厨神之路八--煎炸类
文章目录一、炸馒头片一、炸馒头片1:取个大碗放入面粉和水调成面糊。 2:把馒头切成片,大小薄厚根据自己喜好。 3:切好的馒头片在面糊的碗里裹层面糊。 4:锅里烧油,七成热把裹好面糊的馒头片放入,炸的馒头片表面金黄即可捞出。 5:准备利民蒜蓉辣酱和甜面酱(1:1)混合均匀后制成馒头刷酱,再撒上孜然粉辣椒粉。趁热吃。香脆辣。...
2021-05-29 18:57:14
151
原创 大数据篇--SparkStreaming调优
文章目录一、流处理数据Sink到目的地的N种错误操作1.序列化异常:2.高性能写结果数据:一、流处理数据Sink到目的地的N种错误操作pom.xml添加依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <v
2021-05-28 22:37:29
243
原创 大数据篇--面试总结
文章目录1.Redis的数据类型有哪些1.Redis的数据类型有哪些 Redis支持五种数据类型:string(字符串),hash(哈希),list(列表),set(集合)及zset(sorted set:有序集合)。
2021-05-27 12:04:06
228
原创 大数据篇--Spark调优
文章目录一、算子的合理选择1.map和mappartition:2.foreach和foreachpartition:一、算子的合理选择pom.xml内容:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:
2021-05-26 12:44:02
321
1
HDP3.1.5.0+Ambari2.7.5安装部署(Centos7.2)所需的三台Ambari镜像
2023-04-13
Snort_3.0.0-a4-241_on_Ubuntu_14_and_16.pdf
2018-02-09
elasticsearch-2.2.0.tar.gz
2017-09-19
flumee.zip
2017-08-03
winutils.exe
2017-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人