Review
longdada007
这个作者很懒,什么都没留下…
展开
-
Review(10)
1 CDH部署 卸载2 CDH 调优3 CDH日志怎么查看 xxx.log role.log 强调三种日志stdout stderr xxx.log4 CDH监控 TSQ 预警5 CDH 动态资源池 多租户案例 放置规则6 一台服务器磁盘(1W转 7200转(坑) 1.5W转相当于SSD 7200转 ) 6块 2T/块 RAID ?假如不做,HDFS D...原创 2019-07-10 18:50:12 · 110 阅读 · 0 评论 -
Review(12)
1 数据倾斜 Shuffle MR:reduce Spark:task 100task 1-2task ===>执行时间拉长 能跑完 跑不出来==》重跑 打散 random ...原创 2019-07-17 18:28:59 · 119 阅读 · 0 评论 -
Review(11)
1.小文件 删除 合并 普通文本 复杂的storage Format:ORC/parquet ==>Code :MapReduce/Spark(EXTDS) 设定阈值,筛出需要合并的文件 input /1.txt...原创 2019-07-17 16:45:25 · 85 阅读 · 0 评论 -
Review (1)
第一阶段:1.scala闭包 闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。 闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。 如下面这段匿名的函数: val multiplier = (i:Int) => i * 10 函数体内有一个变量 i,它作为函数的一个参数。如下面...原创 2019-07-04 17:08:42 · 259 阅读 · 0 评论 -
Review (2)
1.一个有序地数组构建成平衡二叉树 这个问题用递归很容易解出来。考虑下面一棵二叉搜索树:这是一棵平衡的二叉搜索树,所谓平衡的定义,就是指二叉树的子树高度之差不能超过1。如果要从一个有序数组中选择一个元素作为根结点,应该选择哪个元素呢?我们应该选择有序数组的中间元素作为根结点。选择了中间元素作为根结点并创建后,剩下的元素分为两部分,可以看作是两个数组。这样剩下的元素在根结点左...原创 2019-07-04 19:53:25 · 121 阅读 · 0 评论 -
Review (3)
1.压缩有哪几种方式 区别 场景用1)Gzip压缩优点:压缩率比较高,压缩/解压速度也比较快,hadoop本身支持。缺点:不支持分片。应用场景:当每个文件压缩之后在1个block块大小内,可以考虑用gzip压缩格式。2)lzo压缩优点:压缩/解压速度也比较快,合理的压缩率,支持分片,是Hadoop中最流行的压缩格式,支持Hadoop native库。缺点:...原创 2019-07-06 10:53:25 · 246 阅读 · 0 评论 -
Review (4)
4 Hdfs 得 NN 的内存在生产上如何规划NameNode管理着整个HDFS文件系统的元数据。从架构设计上看,元数据大致分成两个层次:Namespace管理层,负责管理文件系统中的树状目录结构以及文件与数据块的映射关系;块管理层,负责管理文件系统中文件的物理块与实际存储位置的映射关系BlocksMap,如图1所示[1]。Namespace管理的元数据除内存常驻外,也会周期Flush到持久化...原创 2019-07-07 14:36:58 · 137 阅读 · 0 评论 -
Review(5)
5 小文件过多了 什么危害 如何规避?哪里会产生小文件 ?源数据本身有很多小文件 动态分区会产生大量小文件 reduce个数越多, 小文件越多 按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数小文件太多造成的影响 ?从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的...原创 2019-07-08 19:52:56 · 281 阅读 · 0 评论 -
Review(6)
9.Hive内部表和外部表区别Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享元数据。建内部表create table student(Sno int,S...原创 2019-07-08 19:53:15 · 249 阅读 · 0 评论 -
Review(7)
17 flume如何抽取数据 记录pos点?用哪一个source? tailDir目录能支持递归吗 flume中有三种可监控文件或目录的source、分别是Exec Source、Spooling Directory Source和Taildir Source。 Taildir Source是1.7版本的新特性,综合了Spooling Directory Source和Ex...原创 2019-07-10 15:49:30 · 237 阅读 · 0 评论 -
Review(8)
19 Kafka ack 有哪几种 ?生产选择哪个?首先这个acks参数,是在KafkaProducer,也就是生产者客户端里设置的也就是说,你往kafka写数据的时候,就可以来设置这个acks参数。然后这个参数实际上有三种常见的值可以设置,分别是:0、1 和 all。第一种选择是把acks参数设置为0,意思就是我的KafkaProducer在客户端,只要把消息发送出去,不管那条数据...原创 2019-07-10 18:10:05 · 202 阅读 · 0 评论 -
Review(9)
1.Spark 数据倾斜的解决方案 发生现象:绝大多数task非常快,个别task执行慢。 发生原理:进行shuffle时,必须将各个节点上相同的key拉取到某个节点上的一个task进行处理,按照key进行聚合或者join操作,若某个key的数据量特别大,就会发生数据倾斜 解决思路:拆---合 总体发生倾斜概括: jo...原创 2019-07-10 18:26:04 · 111 阅读 · 0 评论 -
Review(13)
1)Linux命令获取addid=20的所有的记录并存储到access-20.log a)awk grep b) >> >2) RDD 算子 实现p分组 对addid求和 并写入mysql a)日志解析 提取所需的字段 用reduceByKey b) coalesce(如果分区数太多,改变partiti...原创 2019-07-17 19:53:54 · 145 阅读 · 0 评论