Hadoop
文章平均质量分 54
1313123131312
这个作者很懒,什么都没留下…
展开
-
Hadoop集群的格式化、集群运行学习笔记
1 格式化:Hadoop StartupTo start a Hadoop cluster you will need to start both the HDFS and YARN cluster.The first time you bring up HDFS, it must be formatted. Format a new distributed filesys转载 2018-04-11 09:56:46 · 2723 阅读 · 0 评论 -
hadoop:Type mismatch in key from map
Type mismatch in key from map: expected **, recieved org.apache.hadoop.io.LongWritable出现这个错误的原因:1、map和reduce中的输入输出格式不对。比如 job.setMapOutputKeyClass(Text.class); job.原创 2018-04-26 21:53:33 · 651 阅读 · 0 评论 -
HDFS常用文件操作命令
1.lshadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件2.puthadoop fs -put < local file > < hdfs file > hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put < local file or d...原创 2018-04-28 21:33:54 · 388 阅读 · 0 评论 -
MapReduce编程 文件合并和去重
、问题描述对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。file1.txt中的内容:20150101 x20150102 y20150103 x20150104 yfile2.txt中的内容:20150105 z20150106 x20150101 y20150102 yfile3.txt中...转载 2018-04-28 21:41:14 · 5842 阅读 · 0 评论 -
HDFS部分笔记
一. HDFS概述HDFS即Hadoop Distributed File System, 源于Google发表于2003年的论文,是一种分布式的文件系统。HDFS优点:高容错性(数据自动保存多个副本)适合批处理适合大数据处理流式文件访问(一次性写入,多次读取)建立在廉价机器上HDFS缺点:不善于处理低延迟数据访问不善于处理小文件存取(元数据存放在namenode内存中,消耗大量内存)不支持并发写...转载 2018-04-28 21:48:24 · 182 阅读 · 0 评论 -
MapReduce处理多个不同的出入文件
MultipleInputs类指定不同的输入文件路径以及输入文化格式现有两份数据phone123,good number124,common number125,bad numberuserzhangsan,123lisi,124wangwu,125现在需要把user和phone按照phone number连接起来。得到下面的结果zhangsan,123,good numberlisi,123,c...转载 2018-04-28 21:49:48 · 890 阅读 · 0 评论 -
Map和Reduce阶段数据合并的处理
在Map阶段处理数据时,由于内存的限制,会把数据先写到文件中,最终会根据数据的多少生成多个文件,每个文件中会按照Reduce的个数分区,每个分区的数据都按照key值顺序排放,Map结束后将多个文件合并为同一个文件,合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据,然后会根据数据的多少写到文件和...转载 2018-04-28 21:51:05 · 3543 阅读 · 0 评论 -
MapReduce编程
实验目的(转载地址)通过实验掌握基本的MapReduce编程方法。掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。通过操作MapReduce的实验,模仿实验内容,深入理解MapReduce的过程,熟悉MapReduce程序的编程方式。实验平台操作系统:Ubuntu-16.04Hadoop版本:2.6.0JDK版本:1.8IDE:Eclipse实验内容和要求一...转载 2018-04-28 21:55:24 · 3010 阅读 · 0 评论 -
HDFS读写过程解析
一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputSt...转载 2018-04-28 22:03:42 · 240 阅读 · 0 评论 -
基于haddop的HDFS和Excel开源库POI导出大数据报表(二)
优化导出流程在一开始的时候,当我获取到订单的数量,遍历订单,获取用户id和用户的地址id,逐条查询,可想而知,1w条数据,我要查询数据库1w*2,这种资源消耗是伤不起的,小号的时间大多数花在了查询上面。后来,做了一次优化,将用户id和地址id分别放入到list中,每500条查询一次,加入有1w条,可以执行查询(10000 / 500) = 20,只需要查询20次即可,一般而言这个数目更小,原因用户...转载 2018-04-28 22:12:07 · 406 阅读 · 0 评论 -
上传到HDFS上的文件遇到乱码问题
上传到HDFS上的文件里的中文遇到乱码问题 检查一下文档的格式发现不是utf-8格式所以接下来的工作就是将格式转化为utf-8了原创 2018-04-26 17:20:33 · 2624 阅读 · 0 评论 -
hadoop源码分析之mapredue的泛型类解析
首先,我们来看看下面函数public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{private final static IntWritable one = new IntWritable(1);private Text word = new Text();publi...转载 2018-04-26 11:24:19 · 916 阅读 · 0 评论 -
Invalid Hadoop Runtime specified; please click 'Configure Hadoop install directory' or fill in libra
Invalid Hadoop Runtime specified; please click 'Configure Hadoop install directory' or fill in library location input field发生上述的错误原因是没有将解压的Hadoop安装包导入到EclipseWindow ->Preferences->选择Hadoop Map/R...原创 2018-04-16 16:15:11 · 2989 阅读 · 0 评论 -
Open the Java build path Property page of project
查看了网上的一些方法可能是JAVA_EE版本和JDK不符合 所以我的解决办法是先查看自己的JDK版本原后下载对应的JAVA EE(不要和JDK版本差别太大)原创 2018-04-16 16:15:56 · 2731 阅读 · 0 评论 -
hadoop中典型Writable类详解
Hadoop将很多Writable类归入org.apache.hadoop.io包中,在这些类中,比较重要的有Java基本类、Text、Writable集合、ObjectWritable等,重点介绍Java基本类和ObjectWritable的实现。1. Java基本类型的Writable封装目前Java基本类型对应的Writable封装如下表所示。所有这些Writable转载 2018-04-19 10:21:00 · 6146 阅读 · 0 评论 -
无法打开虚拟机 xxxxx.vmx 内部错误
早上打开电脑,打开虚拟机,准备继续昨天稍有成就的编码,可提示“无法打开虚拟机 xxxxx.vmx 内部错误”,有时提示“没有权限”,百度搜索很久得到了网上两个方法:1、要右键鼠标,以管理员身份打开虚拟机 2、要确定虚拟机的服务都开启了 。可尝试了两种方法后仍然提示“内部错误”或者“没有权限”,查找了半天,最后定位到磁盘问题 ,用到了chkdsk命令终于解决了该问题。下面具体讲一下chk...转载 2018-04-24 09:27:41 · 3386 阅读 · 0 评论 -
Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: use
Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=zhuy, access=WRITE, inode="/user":root:supergroup:drwxr-xr-xat org.apache.hadoop.hdfs.server.nam原创 2018-05-01 16:07:43 · 5341 阅读 · 1 评论 -
log4j:WARN No appenders could be found for logger 解决方案
log4j:WARN No appenders could be found for logger 解决方案(转载地址)我们在使用Log4j的时候,总是出现: Java代码 log4j:WARN No appenders could be found for logger (org.apache.ibatis.logging.LogFactory). log4j:WARN Please ini...转载 2018-05-01 16:28:17 · 2522 阅读 · 0 评论 -
hdfs在Eclipse里使用代码修改编辑文本等权限问题
hdfs-site.xml中的配置没有下面代码(本人的问题)开放权限 dfs.permissions false 之后重新启动服务器节点原创 2018-05-02 17:16:28 · 284 阅读 · 0 评论 -
Exception in thread "main" java.io.FileNotFoundException: File does not exist: hdfs://master:8020/us
Exception in thread "main" java.io.FileNotFoundException: File does not exist: hdfs://master:8020/user/seletedata/part-r-0000 at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileS...原创 2018-05-03 17:03:31 · 3150 阅读 · 0 评论 -
基于haddop的HDFS和Excel开源库POI导出大数据报表
关键词Java、PHP、hdfs、mqrocket、excel、poi、报表需求背景在业务需求方面,每个企业或多或少都会有报表导出的作业,量少则可是使用输出流或者字符串的输出即可完成,只要指定respose的相应Content-Type即可。如果大量的数据需要导出,尤其是订单这类业务逻辑复杂的报表,导出的时候需要加入各种条件和权限,从数据处理方面就已经很费力了,更何况导出的需求不是一天两天,而是半...转载 2018-04-28 22:10:44 · 906 阅读 · 0 评论