hadoop
maixia24
大数据、机器学习、区块链
展开
-
hadoop集群错误
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.net.UnknownHostException: ubuntu: ubuntu: Name or service not knownhostname查看下自己的主机名是ubuntu,但是在/etc/hosts里面却找不到ubuntu对应的ip,添加127.0.0.1 ubu原创 2015-04-05 10:01:12 · 633 阅读 · 0 评论 -
WritableComparator RawComparator
IntWritable 实现了WritableComparable 接口, 它是Writable 和 java.lang.Comparable 接口的子类package org.apache.hadoop.io;public interface WritableComparable extends Writable, Comparable {}数据类型的比较在MapReduce中式原创 2013-11-26 14:49:27 · 3347 阅读 · 0 评论 -
hadoop 序列化与java序列化的区别
1 java的序列化机制在每个类的对象第一次出现的时候保存了每个类的信息, 比如类名, 第二次出现的类对象会有一个类的reference, 导致空间的浪费2 有成千上万(打个比方,不止这么多)的对象要反序列化, 而java序列化机制不能复用对象, java反序列化的时候, 每次要构造出新的对象. 在hadoop的序列化机制中, 反序列化的对象是可以复用的.3 自我实现把控力更好原创 2013-11-24 14:54:46 · 1882 阅读 · 0 评论 -
获取hive建表语句
http://www.alidata.org/archives/939如何获取hive建表语句在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby转载 2013-11-08 19:05:31 · 32445 阅读 · 9 评论 -
Hbase startrow
20100809041500_abc_xyz20100809041500_abc_xyw20100809041500_abc_xyc*20100809041500_abd_xyz*20100809041500_abd_xywstart row = "20100809041500_abd"end row = "20100809041500_abe"scan.se原创 2013-11-05 15:50:55 · 3399 阅读 · 0 评论 -
Hive Hbase区别 转载整理
Hive是為簡化編寫MapReduce程序而生的,使用MapReduce做過數據分析的人都知道,很多分析程序除業務邏輯不同外,程序流程基本一樣。在這種情況下,就需要Hive這樣的用戶編程接口。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapReduce,Hive中的表純邏輯表,就是些表的定義等,也就是表的元數據。使用SQL實現Hive是因為SQL大家都熟悉,轉換成本低,類似作用的Pig就原创 2013-11-05 11:14:26 · 21823 阅读 · 12 评论 -
Hbase源码分析 RowCounter
/** * Copyright 2008 The Apache Software Foundation * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed wit原创 2013-11-04 18:18:53 · 3080 阅读 · 0 评论 -
hadoop开源
使用hadoop的公司 http://five.rdaili.com/sohu.com.php?u=engl3zVky1NsNDDp3t9mshjqO8Mks29GbFYUjHdHJdhvzaNy&b=3hadoop 开源项目 Cascalog: Abstraction for data processing on Hadoop.Mrjob: Dev原创 2013-11-03 21:28:21 · 723 阅读 · 0 评论 -
setMapoutputKeyClass()方法
mapJoinJob.setMapOutputKeyClass(Text.class);mapJoinJob.setMapOutputValueClass(SimItem.class);这两个方法是map端输出的数据类型,默认的是LongWritable.class Text.class原创 2013-11-01 15:51:18 · 4652 阅读 · 0 评论 -
Hadoop开发常用的InputFormat和OutputFormat
http://blog.csdn.net/dajuezhao/article/details/6028985Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextIn转载 2013-10-31 23:43:51 · 881 阅读 · 0 评论 -
hadoop context.write() 以多个字段为key
context.write(字段1, value);context.write(字段2, value);这样输出就是以字段1和字段2为key的数据了原创 2013-10-22 16:51:31 · 11790 阅读 · 1 评论 -
Hadoop作业提交多种方案 hadoop插件编译
转载 http://weixiaolu.iteye.com/blog/1402919原创 2013-10-27 14:54:09 · 540 阅读 · 0 评论 -
hadoop两表join相关
map 只设置book.class的某些字段 如 用户,看的作者 pv量这样 相同的 用户,作者 进入相同的reducer 即可实现 合并相同用户 作者的pv总和writable toString方法,可以影响 mapreduce中 set(vars[2]) 这样的设置顺序原创 2013-10-21 18:20:22 · 760 阅读 · 0 评论 -
二次排序原理
在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同 时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的RecordReder会将 文本的一行的行号作为key,这一行的文本作为value。这就是自定义Map的输入是的原因。然后调用自定义Map的m转载 2013-11-12 09:57:09 · 1795 阅读 · 0 评论 -
有趣的foo bar
http://www.cnblogs.com/felicity/archive/2010/11/30/1892100.html不管是java,C++,还是PHP,每次都能看到 foo = bar 的例子,这两个单词很恶心,foo查不到字典,bar的解释又让人跟编程联系不上,更弄不清楚这个神秘的foo是个什么关系。语意不清,学起来心里老是有疙疙瘩瘩的感觉,于是查吧,终于揭开了这两转载 2013-11-27 13:46:36 · 813 阅读 · 0 评论 -
oozie安装遇到问题解决
安装按照官网:http://oozie.apache.org/docs/4.1.0/DG_QuickStart.html1.其中:Building Oozie过程,由于联网下载组件,耗时较长,大约1到数个小时。 hadoop.proxyuser.[OOZIE_SERVER_USER].hosts [OOZIE_SERVER_HOSTNAME] h原创 2015-02-12 10:42:47 · 5478 阅读 · 1 评论 -
hadoop管理
打开回收站功能: fs.trash.interval 1440 fe原创 2014-08-27 11:57:17 · 534 阅读 · 0 评论 -
hadoop知识之counter
在mapper中context.getCounter("errorLines", "mapShortUrl").increment(1);原创 2014-08-06 14:01:37 · 677 阅读 · 0 评论 -
mr任务之从多个Hbase表中读取数据进行处理
从两个不同的Hbase表中读取数据:原创 2014-08-05 16:28:42 · 5210 阅读 · 2 评论 -
Hbase编码显示中文及中文转为十六进制
hbase表中根据ascii数据查询对应的中文方法 在172.168.8.90服务器上面,进入python,进入Python命令:Python然后输入如下的命令:print '\xE4\xB9\xB1\xE4\xB8\x96'.decode('utf-8')打印结果:乱世其中\xE4\xB9\xB1\xE4\xB8\x96为代转换的数据,decode('utf-8'原创 2014-03-12 15:37:47 · 26320 阅读 · 2 评论 -
hadoop基础知识
1.hadoop流hadoop流提供了一个API,允许用户使用任何脚本语言编写Map函数或Reduce函数,Hadoop流的关键是,它使用Unix标准流作为程序与Hadoop之间的接口。2.hadoop joinhttp://www.myexception.cn/web/962811.html(1)reduce侧连接(2)map端连接 基于Distributed原创 2014-02-14 11:25:27 · 728 阅读 · 0 评论 -
HBase异常:java.io.IOException: Connection reset by peer
http://www.cnblogs.com/jdksummer/articles/2851551.html2013-01-08 15:37:19,565 WARN org.apache.hadoop.ipc.HBaseServer: IPC Server listener on 60000: readAndProcess threw exception java.io.IOE转载 2014-02-25 13:26:38 · 7452 阅读 · 0 评论 -
云计算管理工监控具
http://www.chinaz.com/news/2012/0430/248846_2.shtml云计算管理三利器:Nagios、Ganglia和Splunk(2)原创 2014-01-23 14:03:22 · 806 阅读 · 0 评论 -
hadoop成功公司
Datameerhttp://www.ctocio.com/ccnews/12336.html原创 2014-01-20 15:03:04 · 632 阅读 · 0 评论 -
Hdfs文件命名规则
You have a directory named jobdata in HDFS that contains four files:_first.txt, second.txt, .third.txt and #data.txt.How many files will be processed by the FileInputFormat.setInputPaths () comman原创 2014-01-21 14:41:33 · 2980 阅读 · 0 评论 -
Mapreduce 读hbase
在tasker中设置conf.set("hbase.mapred.outputtable", "user_feature_news_forever_interest_topic");原创 2013-12-12 10:57:46 · 679 阅读 · 0 评论 -
Hive 插入数据 显示hive表详细信息
向管理表中加载数据 因为,Hive没有 行级别的插入,更新和删除操作,往表中插入数据的唯一方法就是 使用成批载入操作。或者你可以通过其他的工具向正确的目录写入数据。原创 2013-11-08 10:02:36 · 9199 阅读 · 0 评论 -
Mapreduce 工作过程
jobTracker是一个程序,他的主要类是Jobracker。同理,tasktracker原创 2013-12-01 16:29:59 · 637 阅读 · 0 评论 -
DBinputformat的使用
很简单,就是把sql数据库导入hdfs中经常用的方法是如下方法setInputpublic static void setInput(JobConf job, ClassDBWritable> inputClass, String inputQuery,原创 2013-10-21 17:30:28 · 2089 阅读 · 0 评论 -
hadoop namenode 格式化问题
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论NameNode节点上的格式化。 我们都知道,NameNode主要被用来管理整个分布转载 2013-10-27 21:04:04 · 1710 阅读 · 0 评论 -
tomcat内存设置
转载至:http://elf8848.iteye.com/blog/378805开发中需要注意的地方:读取hbase表的时候,需要读到内存中,如果数据大了,则会内存溢出,所有有必要修改。 如果要在myeclipse中启动tomcat,上述的修改就不起作用了,可如下设置:Myeclipse->preferences->myeclipse->servers->tom原创 2013-09-16 17:57:05 · 644 阅读 · 0 评论 -
windows下 在eclipse中执行mapreduce 权限问题
设置主要如下package org.EmpMain;/** * Hello world! * */import java.security.PrivilegedAction;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop原创 2013-09-11 16:11:40 · 2267 阅读 · 0 评论 -
maven插件 myeclipse 提示Eclipse is running in a JRE, but a JDK is required 解决方法
今天遇到了此问题,按照网上方法修改ini和修改jdk后,仍有问题。郁闷好久后,,,终于在更新了maven的配置文件后 成功了。分析原因是 可能因为修改后 配置没有自动更新。原创 2013-09-09 13:57:35 · 995 阅读 · 0 评论 -
Hive Load等问题
以下内容为 qq群整理内容,如有侵权,请联系我,会立刻删除。hive load数据的效率比较低,一个 master三个node load 一个G的数据需要两分钟,10G需要20多分钟。可选的解决方案;1.直接导入2.使用外表3.先导入HDSF系统,再导入表 使用外表的方式,一般是先导入HDFS然后再和外表关联直接导入是先建表,再导入数据到原创 2013-08-16 17:55:22 · 1783 阅读 · 0 评论 -
智能电视发展方向研究及游戏业现状
1、 Candy Crush Saga 而且在一些新环节,必须获得朋友给的车票次才能通过,这种限制性条件成了游戏病毒式营销的重要元素。针对金字塔用户的三大盈利模式。在Candy Crush Saga中,如果把用户比喻为金字塔,那么大多数用户处于金字塔下面,他们不愿意付费,所以就通过广告来实现盈利。第二层的用户喜欢在没有广告、不用等待、不用邀请的情况下继续玩游戏,她们舍得花钱购买虚拟物品。针原创 2013-05-10 15:03:00 · 959 阅读 · 0 评论 -
hadoop 学习地址
以下转载 http://nodex.iteye.com/blog/14782311 Hadoop http://hadoop.apache.org 2 文章收录网上比较权威和受欢迎的大部分是来自 IBM DW 的文章,尤其是那两个经典系列的文章,此外还有一些案例型和实践型的文章与指南,这里集中收录如下:首先是两篇云计算理论与概念的入门文章(教程):转载 2013-04-17 23:04:11 · 786 阅读 · 0 评论 -
hadopp核心革新
MapReduce tries to collocate the data with the compute node, so data access is fastsince it is local.# This feature, known as data locality, is at the heart of MapReduce andis the reason for its g原创 2013-04-01 13:48:46 · 737 阅读 · 0 评论 -
Sqoop generated code浅析
最近在研究Sqoop,根据hadoop definitive guide 书籍,写下自己的理解,如有不当之处,请指正。先说,Sqoop generated code的两种生成方式:1、使用Sqoop导入命令,会自动生成,它的生成的时间是在 导入的过程中,而不是导入完成之后。2、使用如下命令%sqoop codegen --connect jdbc:mysql:/原创 2013-07-09 23:56:51 · 1118 阅读 · 0 评论 -
Sqoop导入数据文本格式和Sequence File的比较
Sqoop可以导入数据到一些不同的文件格式。文本格式:文本格式(默认格式)提供一种便于人阅读的数据格式,这种格式平台无关性,是最简单的结构。但是,这种文件格式,不可以处理二进制字段(例如数据库中列中的可变二进制类型字段);不能区分出空值和包含null的字符串。SequenceFile:解决了文本格式的缺点。序列化文件提供了,更精确的导入数据的替代方法的可能性。它原创 2013-07-09 14:20:05 · 5030 阅读 · 1 评论 -
第十五章 Sqoop(1)
Hadoop平台的一个强大的地方是它处理不同格式数据的能力。HDFS能够稳定的存储日志和其它很多种来源的数据,并且Mapreduce程序可以处理各种各样的数据格式,然后抽取相关的数据并且组合各种各样的数据成为一个有用的结果。但是,和HDFS之外的存储仓库交互数据的时候,Mapreduce程序需要使用外部的API来得到这些数据。通常,有价值的数据存储在RDBMS中。Sqoop是一个允许用户从原创 2013-07-04 18:30:40 · 1736 阅读 · 0 评论