大数据
文章平均质量分 62
唯爱的单
这个作者很懒,什么都没留下…
展开
-
MapReduce自定义输入格式 完成统计任务并输出多个文件
/*通过五大视频网站数据,分析统计节目受欢迎度注意:1-5数字和5大视频的关系:1优酷2搜狐3土豆4爱奇艺5迅雷看看*/ 第一步:定义一个电视剧热度数据的tvPlayWritable.java。package com.hadoop.MapReduce;import java.io.DataInput;import java.io.DataOutput;import...原创 2018-08-27 20:23:58 · 452 阅读 · 0 评论 -
HDFS相关java API的操作
import java.io.IOException;import java.net.URI;import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.h...原创 2018-08-25 10:35:53 · 197 阅读 · 0 评论 -
HDFS 使用文件模式,实现多文件上传至HDFS
/** * 我们利用通配符和PathFilter 对象,将本地多种格式的文件上传至 HDFS文件系统,并过滤掉 txt文本格式以外的文件。 */import java.io.IOException;importjava.net.URI;importjava.net.URISyntaxException;import org.apache.hadoop.conf.Config...原创 2018-08-25 10:37:20 · 1194 阅读 · 0 评论 -
HDFS 文件合并及上传至服务器
/* * 合并多个小文件,并传至服务器 为什么要合并? 从存储角度:小文件占用太多NameNode元数据信息资源,NN资源利用率不高效;合并后占用NN的内存小了,NN就有更多的内存去管理更大规模的集群 从计算资源的角度:一个小文件占用一个block,一个block被一个map处理,计算资源消耗太多。合并后多个小文件占用一个block,占用的map资源少,减...原创 2018-08-25 10:39:27 · 1283 阅读 · 0 评论 -
Hive和HBase有哪些区别与联系及适用场景???
首先还要从两者的概念入手。Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。可以说,Hive的存在让海量数据的增删改查更加方便。其实从Hive的logo就可以看出H...转载 2018-09-09 15:38:56 · 603 阅读 · 0 评论 -
maven出现No plugin found for prefix 'help' in the current project and in the plugin groups [org.ap...
控制台输入 mvn help:system 下载相应包时 出现如下问题:No plugin found for prefix 'help' in the current project and in the plugin groups [org.apache.maven.plugins, org.codehaus.mojo] available from the repositories...原创 2018-09-15 22:28:34 · 9518 阅读 · 7 评论 -
IEDA运行项目关于log4j问题log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.li)。。
最近从eclipse转到IDEA编写代码,运行项目出现log4j警告,总结就是缺少log4j配置文件。下载下面文件并将其copy到src的main目录下,如图链接:https://pan.baidu.com/s/1dIb55YduxD1nzllx60GIqg 提取码:nqx6 copy完后,还需要在代码main函数中 添加如下一行代码(注意eclipse中不需要添加下面...原创 2018-11-17 17:31:19 · 5634 阅读 · 3 评论 -
图解SQL的inner join、left join、right join、full outer join、union、union all的区别
对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章,通过文氏图 Venn diagrams 解释了SQL的Join。我觉得清楚易懂,转过来。假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各...转载 2019-02-18 14:53:03 · 193 阅读 · 0 评论 -
mvn命令package和install的区别????
package是把jar打到本项目的target下,而install时把target下的jar安装到本地仓库,供其他项目使用。 当其他项目需要依靠该项目编译是,使用install。原创 2019-02-19 09:41:20 · 2963 阅读 · 0 评论