Hadoop
文章平均质量分 86
小猫不会去楼兰捉虫
这个作者很懒,什么都没留下…
展开
-
Hadoop之企业级解决方案
MapReduce程序执行时,Reduce节点大部分执行完毕,但是有一个或者几个Reduce节点运行很慢,导致整个程序处理时间变得很长,具体表现为:Reduce阶段一直卡着不动。Hadoop的HDFS和MapReduce框架是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源。SequenceFile需要一个合并文件的过程,文件较大,且合并后的文件不方便查看,必须通过遍历查看每一个文件。解决方案是通常选择一个容器,将小文件同意组织起来,HDFS提供了两种类型的容器,分别是。原创 2022-10-02 19:03:49 · 1786 阅读 · 0 评论 -
MapReduce之扩展
b. stdout : 是 System.out.println 打印的日志。如果时分布式还需要添加下面的配置,然后将yarn-site.xml分发到其他节点,重启集群。c. syslog : 是logger打印的日志。只是用Map阶段: 当不需要聚合功能只需要过滤和解析式。a. stderr : 错误日志。在yarn-site.xml中添加配置。(2)设置reduce任务数为0。(1)删除reduce相关代码。原创 2022-10-02 00:08:47 · 415 阅读 · 0 评论 -
MapReduce之WordCount程序打包
provided原创 2022-10-01 22:50:36 · 725 阅读 · 0 评论 -
MapReduce原理
5. 把所有的临时文件合并成一个大文件,因为一个map任务只会生成一个文件(也有多个分区),每个分区的数据会被shuffle线程拷贝到不同的reduce节点上。3. MapTask的输出会先写入到内存缓冲区(100M),当内存缓冲区的大小达到80%的大小,会把内存中的数据溢写到磁盘里面(溢写之前会进行分区排序,按照key进行升序排列),一直等到MapTask把所有的数据都计算完,最后会把内存缓冲区里面剩余的数据一次性全部刷新到本地磁盘文件中。4. 每个文件都是有多个分区的,同一个分区的数据放到一起。原创 2022-09-30 23:40:30 · 703 阅读 · 0 评论 -
HDFS入门教程
主要负责定期把edits文件中的内容合并到fsimage中,这个合并操作被称为checkpoint,在合并的时候会对edits中的内容进行转换,生成新的内存保存到fsimage中注意:在NameNode的HA架构中没有SecondaryNameNode进程,文件合并操作会由standby NameNode负责实现。原创 2022-09-24 22:38:06 · 751 阅读 · 0 评论 -
Java操作HDFS
方法一: 关闭HDFS权限校验,vim hdfs-site.xml 添加配置。其他用户没有访问HDFS的权限,解决办法有两种。方法二:修改HDFS根路径的权限为777。访问HDFS时发生报错。原创 2022-09-24 14:59:22 · 993 阅读 · 0 评论