![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
Jsoooo
这个作者很懒,什么都没留下…
展开
-
Flume奇葩异常
异常:说配置不了r1解决:配置文件中有些语句后加了分号 ; 导致无法配置原创 2018-10-11 16:32:47 · 185 阅读 · 0 评论 -
Hadoop组件的各个进程及其作用
转自:https://www.jianshu.com/p/37b04eeedc6d转载 2018-11-06 16:46:49 · 1621 阅读 · 0 评论 -
Hadoop和Spark的默认调度策略
转自:Hadoop:https://www.cnblogs.com/LgyBean/p/5040129.htmlSpark:https://blog.csdn.net/dabokele/article/details/51526048转载 2018-11-06 16:51:46 · 917 阅读 · 0 评论 -
大数据算法-处理大量数据
转自https://www.cnblogs.com/simonote/articles/3087185.html转载 2018-11-05 22:29:21 · 1198 阅读 · 0 评论 -
大数据技术图谱
转自:https://blog.csdn.net/stpeace/article/details/79232656转载 2018-11-20 10:50:47 · 640 阅读 · 0 评论 -
Flume HDFS Sink 写文件报错
说是文件名不是有效的DFS文件名查了一下HDFS文件名中不能有冒号(:)原创 2019-01-12 12:57:50 · 312 阅读 · 1 评论 -
Hadoop-MapReduce Shuffle原理及调优
Shuffle过程图:Map端: 1.Collect: Map端不是直接把数据写入本地磁盘,而是先写入一个环形缓冲区, 每个Map任务都有一个区,由io.sort.mb属性控制缓冲区大小。 2.sort: 将数据按照分区分好,并且在分区内实现按Key升序排序 2*.Combiner: 若有Combiner,在上面分区内sort的输出结果基础...原创 2019-02-28 12:04:16 · 229 阅读 · 0 评论 -
大数据-面经附个人理解(Spark Shuffle)(1)
Spark:1.Spark中的shuffle有哪些? 1.1.最早的Hash Based Shuffle(2.0以上被弃用) 每个Mapper对每一个Reducer都会创建相应的bucket,bucket数量为 Mapper个数×Reducer个数。缺点是会产生太多小文件,后面将一个core上的 多个Mapper的输出合并到同一个文件,bucket数量变为...原创 2019-03-01 18:36:47 · 287 阅读 · 0 评论 -
大数据-面经附个人理解(HBase、MongoDB、Redis)(2)
HBase 0.定义: HBase存储容量大,一个表可以容纳上亿行、上百万列,可应对超大数据量要求 扩展简单的需求。 Hadoop的无缝集成,让HBase的数据可靠性和海量数据分析 性能(MapReduce)值得期待。 1.用途 1.特别适用于简单数据写入(如“消息类”应用)和海量、结构简单数据的查询 (如“详单类”应用)。特别地,适合稀疏...原创 2019-03-01 20:54:59 · 649 阅读 · 4 评论 -
HDFS-HA
转自:https://blog.csdn.net/qq_38770218/article/details/79884814转载 2019-03-03 21:50:58 · 104 阅读 · 0 评论 -
大数据-笔经(Spark、MapReduce执行过程)
以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。1.MapReduce:2.Spark:原创 2019-03-09 13:19:18 · 382 阅读 · 0 评论 -
大数据-笔经(Spark数据倾斜)
小赵在测试spark的时候,写了如下的代码:dolines = sc.textFile("data.txt")pairs = lines.map(lambda s: (s, 1))counts = pairs.groupByKey(lambda a, b: a + b)结果运行时等待了一段时间直接报错,data.txt文件较大,小赵对其进行抽样后结果如下:dataappleappl...原创 2019-03-09 13:21:51 · 122 阅读 · 0 评论 -
大数据-笔经(数据清洗)
谈谈你对ETL过程中数据清洗的认识参考答案:数据清洗包括以下内容:1.数据补缺:对空数据、缺失数据进行数据补缺操作,无法处理的做标记。2.数据替换:对无效数据进行数据的替换。3.格式规范化:将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式。4.主外键约束:通过建立主外键约束,对非法数据进行数据替换或导出到错误文件重新处理。...原创 2019-03-09 13:23:45 · 1064 阅读 · 0 评论 -
BitMap和2-BitMap
转自https://blog.csdn.net/BillCYJ/article/details/78948977转载 2018-11-06 11:44:00 · 162 阅读 · 0 评论 -
大数据相关-笔/面试题
Hadoop面试题:https://blog.csdn.net/kingmax54212008/article/details/51257067?utm_source=blogxgwz2Hadoop笔试题:https://blog.csdn.net/zhongqi2513/article/details/78349083Spark面试题:https://blog.csdn.net/wei...转载 2018-10-20 14:04:32 · 243 阅读 · 0 评论 -
Flume常用命令
开启Flume:bin/flume-ng agent -f /opt/modules/flume-1.7.0-bin/conf/collectLog.conf -n a1-f :要用的配置文件-n:配置文件中agent的名字(我这里用的是a1)原创 2018-10-11 17:22:13 · 1964 阅读 · 0 评论 -
HDFS HA指令运行顺序
先在hadoop目录下的sbin/start-all.sh这个命令会先启动配置好的NameNode、datanode,再启动journalnode集群,最后启动yarn,即ResourceManager和Nodemanager之后看50070页面,配置HA的两台机器都为standBy,需手动指定active机器bin/hdfs haadmin -transitionToActive nn1 ...原创 2018-10-14 22:03:27 · 471 阅读 · 0 评论 -
Hive常用指令
在Hive目录中的命令:hive -e “select * …” 执行一条sql语句hive -f “/x/xxx.hql” 执行一个文件,例如外部脚本Hive shell中:直接使用sql语句:create database logs库会自动创在/user/用户名/warehouse/logs.db创建一个.hql文件存储建表语句://创建外...原创 2018-10-15 15:17:16 · 163 阅读 · 0 评论 -
Hive 使用 -e执行alter时奇葩错误
使用 -e 执行报错:hive -e “alter table logs.mybigdatalogs add partition(year=2018,month=10,day=15)”解决方法:使用hive shell先使用数据库logsuse logs2.再使用alter命令(这次不用带库名)alter table MyBigdataLogs add partition(ye...原创 2018-10-15 15:43:34 · 927 阅读 · 0 评论 -
Hive 内部表外部表
内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:1.内部表数据由Hive自身管理,外部表数据由HDFS管理;2.内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定;3....转载 2018-10-16 14:58:33 · 194 阅读 · 0 评论 -
用xcall (ssh)启动zkServer.sh 失败
单独启动zookeeper zkServer.sh 就可以运行,用xcall脚本本质上是ssh运行zkServer.sh就出错,查看状态也出错原创 2018-10-10 10:33:52 · 397 阅读 · 0 评论 -
Kafka-SparkStreaming Java客户端报错
原因kafka版本不匹配0.10.0.0版本和之前的版本包名不同,api也变了新版的包叫kafka010,以前的就叫kafkaKafkaUtils.createDirectStream()方法不同:旧版:新版:...原创 2018-10-16 20:09:33 · 96 阅读 · 0 评论 -
分布式系统
转载自https://blog.csdn.net/lavorange/article/details/52489998在讨论常见架构前,先简单了解一下CAP理论:CAP是Consistency、Availablity和Partition-tolerance的缩写。分别是指:1.一致性(Consistency):每次读操作都能保证返回的是最新数据;2.可用性(Availablity):任何一...转载 2018-10-10 21:04:20 · 118 阅读 · 0 评论 -
Flume spoolDirSource 无法加header怎么办
自带的spoolDirSource不像avroSource一样可以加文件头,所以我们需要自定义步骤:1.在项目目录下的Maven dependencies下找下面选中的的:2.自己新建一个MySpoolDirectorySource的java class,将上面那个SpoolDirectorySource.class中的所有代码自己复制过去,改一下类名就行。3.找到run方法,在下面...原创 2018-10-17 16:27:45 · 583 阅读 · 0 评论 -
Hadoop笔试题
转自https://blog.csdn.net/zhongqi2513/article/details/78349083https://blog.csdn.net/albg_boy/article/details/78424509?utm_source=blogxgwz1https://wenku.baidu.com/view/b045373e9b6648d7c1c746ea.htmlht...转载 2018-10-22 18:34:09 · 3520 阅读 · 0 评论 -
Flume1.7.0无KafkaSink
flume1.6.0中的flume-ng-core中的sink下有KafkaSInk方法,但flume1.7.0下又没有。解决:通过看maven的中央仓库去找,找到一个类似的:然后在pom.xml导入相应包就行了:下面就有KafkaSInk方法。...原创 2018-10-17 18:00:47 · 506 阅读 · 0 评论 -
大数据生态-端口
转自https://blog.csdn.net/student__software/article/details/81674518转载 2018-10-22 19:27:53 · 113 阅读 · 0 评论 -
MPPDatabase(GreenPlum)和Hadoop
1.MPPDB: 1.基于MPP并行处理架构的数据库 2.Shared-nothing架构,各个节点之间互不干预,但一个节点崩了后就得等待重启才能访问该 节点里的数据 3.无master节点的扁平型架构 4.更擅长处理关系型数据 5.适合多维度自助分析、数据仓库、数据集市等。 6.存储的数据价值密度高2.Hadoop: 1.Had...原创 2019-07-11 16:58:10 · 1605 阅读 · 0 评论