大数据
文章平均质量分 88
__威少__
知道java和python,半吊子大数据,用过sql与nosql。
展开
-
【Hadoop】Hadoop开发中wrong key/value与type mismatch错误
在hadoop开发中需要自己定义mapper域reducer,而在定义这两个类的时候需要相应实现map与reduce方法。其实开发需要遵守的规则还是蛮固定的,但是在开发过程中遇到的问题还是挺多的。其中经常遇到的问题就是wrong key与type mismatch这两个在map输出与reduce接受输入和写出结果的时候失败。错误1:wrong key/value的错误,一般是指你在map输出的原创 2013-06-08 22:02:13 · 3083 阅读 · 1 评论 -
【Hadoop】YARN详解与安装指南
YARN是hadoop的第二代,一个更加请打的分布式集群。相比较hadoop一代,yarn提供了更加清晰的程序架构和资源管理,让资源管理和任务管理隔离开来。在架构和代码上更加的清晰。文章介绍了yarn的详细安装步骤和遇到的问题。原创 2014-02-21 15:19:37 · 9817 阅读 · 2 评论 -
【Hadoop】Hadoop/Yarn中hdfs与mapreduce相关问题汇总
在hadoop启动的时候,会出现各种各样的问题,NameNode,JobTracker等各个模块都会有莫名奇妙的问题出现,在这里对hdfs的问题进行一下简单的记录1:HDFS initialized but not 'healthy' yet, waiting...这个日志会在启动hadoop的时候在JobTracker的log日志文件中出现,在这里就是hdfs出现问题,导致DataNod原创 2013-06-24 18:39:00 · 5461 阅读 · 0 评论 -
【Hadoop】中map与reduce的个数问题
在hadoop中当一个任务没有设置的时候,该任务的执行的map的个数是由任务本身的数据量决定的,具体计算方法会在下文说明;而reduce的个数hadoop是默认设置为1的。为何设置为1那,因为一个任务的输出的文件个数是由reduce的个数来决定的。一般一个任务的结果默认是输出到一个文件中,所以reduce的数目设置为1。那如果我们为了提高任务的执行速度如何对map与reduce的个数来进行调整那。原创 2013-07-22 15:34:38 · 10833 阅读 · 0 评论 -
【Hadoop/Hbase】Hbase优化性能配置
Hbase性能提升,通过读取官网文档和收集各种提升性能的经验,现在总结如下。部分已经通过测试,部分只是暂时总结过来。1:通过使用HTablePool,通过池获取HTable连接,注意释放,每次连接。原来是通过HTablePool.putTable()使用,但是后来这个方法被废弃,现在使用HTablePool.closeTablePool()。已经测试通过,这个主要是每次请求的时候节省获取HTa原创 2013-04-16 14:59:42 · 1312 阅读 · 0 评论 -
【Hadoop】mahout推荐hadoop偏好矩阵-PreparePreferenceMatrixJob
mahout推荐包括两部分,一部分是单机版的推荐,主要是以org.apache.mahout.cf.taste.*包下面;另一种则是hadoop版本的推荐主要是以org.apache.mahout.cf.taste.hadoop.*包下面。下面我们针对hadoop版本进行分析。在org.apache.mahout.cf.taste.hadoop.item包下面的RecommenderJob开始。原创 2013-06-13 21:34:21 · 1970 阅读 · 0 评论 -
【Hadoop】mahout推荐hadoop协同矩阵-RowSimilarityJob
生成协同矩阵是RocommendJob的第二步主要操作,第一步操作生成偏好矩阵分析请点击打开链接。在分析之前如果你有兴趣可以先去看一下mahuot对RowSimilarityJob的简单介绍。英文请点击打开链接。然后还有一个链接个人感觉比较有帮助,是某个人和开发者的一个邮件讨论,点击打开链接这一步操作以上一步PreparePreferenceMatrixJob生成的偏好矩阵为输入,来对偏好矩阵原创 2013-06-15 13:47:37 · 2504 阅读 · 0 评论 -
【Hbase】ubuntu下单节点安装hbase存储使用hdfs
本次单机配置是使用了hdfs,而单机状态下也可以使用本机存储。使用本地文件存储的配置方式请详见:http://hi.baidu.com/s120922718/item/b441c8c287b25c3544941655使用hdfs配置,可以看官方文档 :http://hadoop.apache.org/docs/stable/single_node_setup.html通过上述可以看原创 2013-03-13 02:34:49 · 1525 阅读 · 0 评论 -
分布式计算框架综述
本来是发表到科技论在线的,谁知道被退稿了,那就发到这里来吧。0 引言随着互联网的发展,web2.0时期[1]的到来,人类正式进入了信息爆炸时期的。海量的信息在很多应用都会出现,比如一些社交网络应用中记录用户行为日志通常都是以GB甚至是TB为单位的。常规的单机计算模式已经不能支撑如此巨大的数据量。所以,计算必须以分布式的把巨大的计算任务分成小的单机可以承受的计算任务原创 2014-01-02 10:25:45 · 22998 阅读 · 7 评论 -
【Hbase】修改Hbase压缩方式,重启一个regionserver
一:hbase压缩主要分为三种1)HFile block compression on disk:这种压缩方式主要是用在压缩存储在硬盘上的。支持Gzip、LZO、snippy三种数据压缩。后面两种需要额外的配置和安装依赖。hbase默认提供的是第一种压缩方式。Gzip与LZO相比压缩比较高,而LZO是性能较高。在hbase-site.xml配置压缩方式: io.compress原创 2013-03-16 10:31:26 · 5349 阅读 · 0 评论 -
【Hadoop/Hbase】centos上安装并设置Snappy/LZO压缩方式
在hadoop和hbase文件传输可以在压缩之后在进行传输,这样就可以在传输的时候减少传输数据,增大I/O和带宽效率。在hadoop中主要提供了三种压缩方式Gzip、LZO、Snappy三种数据压缩。后面两种需要额外的配置和安装依赖。但是,在hadoop中默认都已经实现接口。原创 2013-07-30 18:46:23 · 8442 阅读 · 0 评论 -
【Hadoop】hadoop中实现ListWritable
在hadoop中一切可以传递和读写到hbase的数据都是以XXWritable的形式来处理的。如果你想实现一个自己的一个可读写的数据类型,则必须继承Writable接口。然后在map或者reduce中使用。hadoop中已经有一些默认实现的课读写对象,比如int,long等。因为开发,需要一个list类型的课读写对象,但是hadoop中没有默认实现。虽然mahout中有一种类似的VectorWri原创 2013-06-13 20:04:09 · 2406 阅读 · 0 评论 -
【Hadoop】windows下链接远程ubuntu开发hadoop
对在windows上进行远程链接ubuntu hadoop平台进行介绍,并对提交任务中遇到的问题进行介绍。主要是包括路径找不到,压缩编码错误,java版本不一致等。原创 2013-03-30 07:37:04 · 1963 阅读 · 0 评论