![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
普通网友
这个作者很懒,什么都没留下…
展开
-
MapReduce学习
MapReduce设计理念移动计算而不是移动数据wordcounter流程图 上面图片讲述的是MR进行groub by计算的计算过程,下面进行详细分析。 1.Splitting动作在图片上显示是按照行进行分组,其实结合HDFS我们知道它们是按照block进行分组的。 2.按照block进行分组的时候,有时候会把car这些隔开,那么我们会进行少量的数据移动。 3.进行map的时候,图上面是按照原创 2016-11-03 14:24:28 · 364 阅读 · 0 评论 -
hadoop中的join原理
http://www.cnblogs.com/yaohaitao/p/6696921.html转载 2017-08-30 14:01:02 · 447 阅读 · 0 评论 -
windows连接hadoop没有权限的问题
windows连接hadoop会出现没有权限的问题,导致不能导入文件进入hdfs. 解决方案1.关闭hadoop.2.修改hdfs-site.xml或者添加<property> <name>dfs.permissions</name> <value>false</value></property>3.重启hadoop原创 2017-11-08 07:22:11 · 1485 阅读 · 0 评论 -
MapReduce实现基本SQL操作的原理-join和group by,以及Dinstinct
感谢作者做的那么清晰易懂http://blog.csdn.net/sn_zzy/article/details/43446027Group By原理 map阶段 把需要group by的多个字段组合变成一个key reduce字段 对组合的新key进行count map阶段 不变 reduce阶段 相同的id不进行count只保留一个然后再count转载 2017-11-02 17:07:00 · 1263 阅读 · 0 评论 -
mapreduce中setCombinerClass和setReducerClass同时使用
https://www.cnblogs.com/duking1991/p/6069048.html转载 2017-11-10 10:21:50 · 1125 阅读 · 0 评论 -
HIVE文件格式的map reduce代码编写
在对HDFS里面的文件编写map reduce时候,我们可以直接读txt文件,其实是HIVE底层也是文件,HIVE有三种文件格式。http://hugh-wangp.iteye.com/blog/1405804转载 2017-11-10 10:30:44 · 286 阅读 · 0 评论 -
MapReduce类的输入文件的格式
输入多个文件,但是格式一样FileInputFormat.addInputPath(conf, new Path("hdfs://192.168.16.128:9000/test/groupby/cityA.txt"));输入多个文件,但是每个文件的格式可以不一样MultipleInputs.addInputPath(job, new Path("hdfs://192.168.16.128:9000原创 2017-11-10 10:36:43 · 697 阅读 · 0 评论 -
mapreduce实现writable接口自定义输出格式
static class UserAndPostWritable implements Writable { /** * 类型 U表示用户,P表示帖子 */ private String type; private String data; public UserAndPostWritable()原创 2017-11-10 10:39:06 · 530 阅读 · 0 评论 -
ubuntu14.04设置SSH免密码登陆
亲测有效https://jingyan.baidu.com/article/60ccbceb02bd4264cab197b9.html转载 2017-11-02 16:26:51 · 401 阅读 · 0 评论 -
mapreduce 实现内连接,左连接,右连接,全连接,反连接
map reduce可以实现sql所做的任何查询操作,通过写map reduce可以了解hadoop里面的数据操作,提高hive sql的性能。http://www.360doc.com/content/15/0108/10/9413880_439086658.shtml整理map reduce进行连接的操作步骤原创 2017-11-02 16:43:09 · 813 阅读 · 0 评论 -
MapReduce中combine、partition、shuffle的作用是什么
combine是用于组合map端的key partition是设置shuffle的key shuffle是hadoop中自带的map reduce根本不用考虑,只用写好map和reducehttp://blog.csdn.net/mrcharles/article/details/50458637转载 2017-11-02 17:20:36 · 939 阅读 · 0 评论 -
Hadoop使用 MapReduce排序思路、全局排序
hadoop中的shuffle会自动进行排序,但是这个过程很慢。 我们可以把N个数据分成K份(1,2,3,4,5…k)并且保证K中的数字大于k-1 然后把K份数据分别进行reduce结果进行合并就会提高排序速度http://www.thebigdata.cn/Hadoop/13225.html转载 2017-11-02 17:29:35 · 584 阅读 · 0 评论 -
map reduce解决数据不平衡问题
hadoop数据不平衡有两种情况 第一种情况是某个NN的数据量很大 可以通过hadoop的balance进行数据平衡,可以多开几个map 第二种情况是某个key的数据很多,reduce过程很慢 可以把key分成多个key进行reduce,然后再进行合并。https://www.zhihu.com/question/32054214转载 2017-11-03 16:59:31 · 958 阅读 · 0 评论 -
Hive+mysql安装
hive+mysql安装亲测有效http://blog.csdn.net/login_sonata/article/details/53178613错误解决http://blog.csdn.net/freedomboy319/article/details/44828337转载 2017-11-14 17:03:40 · 281 阅读 · 0 评论 -
HQL练习
http://blog.csdn.net/mrbcy/article/details/68488178转载 2017-11-14 17:40:31 · 917 阅读 · 0 评论 -
windows下eclipse通过JDBC连接hive
https://www.cnblogs.com/liumingyi/p/5955670.html转载 2017-11-16 16:34:42 · 556 阅读 · 0 评论 -
Hbase学习
Hbase和Hive的区别https://www.cnblogs.com/justinzhang/p/4273470.htmlHBase原理和基本概念http://blog.csdn.net/woshiwanxin102213/article/details/17584043HBase表有rowkey和列簇以及列名。 rowkey是表中一行的数据的唯一性约束。 列簇是Hbase中表的几个列的组合转载 2017-11-27 16:04:36 · 320 阅读 · 0 评论 -
hadoop中namenode无法启动
日志如下:2016-12-18 22:25:26,899 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: STARTUP_MSG: /************************************************************STARTUP_MSG: Starting NameNodeSTARTUP_MSG原创 2016-12-19 14:44:50 · 6017 阅读 · 3 评论 -
hbase中list命令报错
hbase启动正常之后输入./hbase shell 然后输入list就报yarn service is not running。 看后台的日志出现2016-12-14 21:33:13,752 INFO [main] http.HttpServer: Jetty bound to port 160102016-12-14 21:33:13,752 INFO [main] mortbay.l原创 2016-12-15 15:06:48 · 2650 阅读 · 0 评论 -
Hbase无法关闭
有时候在./stop-hbase.sh的时候会一直出现stop hbase………..一直下去,这个时候我们可以通过如下方式关掉hbase。 输入./start-hbase.sh,然后就会出现进程运行的端口号,然后输入kill -9 端口号,主节点的进程在主节点关闭,子节点的进程在子节点关闭。关闭之后再输入jps,就可以看见hbase的进程被停掉了。原创 2016-12-15 09:00:56 · 7686 阅读 · 1 评论 -
Hadoop的压缩codec
作为输入 当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的Codec对其解压。作为输出 当MapReduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapred.output.compression.codec为想要使用的codec的类名称,当然你可以可以在代码中指定,通过调用FileO转载 2016-11-08 09:28:03 · 340 阅读 · 0 评论 -
hadoop中的job调度管理
Hadoop调优方式 一个MapRedcue作业是通过JobClient向master的JobTracker提交的(JobTracker一直在等待JobClient通过RPC协议提交作业),JobTracker接到JobClient的请求后把其加入作业队列中。Datanode节点的TaskTracker一直通过RPC向JobTracker发送heartbeat询问有没有任务可做,如果有则让其派发任转载 2016-11-08 09:44:34 · 2162 阅读 · 0 评论 -
大数据简介
大数据的4V特征体量大(volume): 非结构化数据的超大规模和增长总数据量的80%~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。 多样性( variety ): 大数据的异构和多样性,很多不同形式(文本,图像,视频,机器数据) 无模式或者模式不明显,不连贯的语法或句意。 价值密度( value ): 大量的不相关信息,对未来趋势与模原创 2016-11-01 10:26:40 · 923 阅读 · 0 评论 -
Hadoop学习笔记之组件了解
Hadoop生态图 HDFS-分布式文件系统 作用:服务器以集群方式存在的时候,磁盘空间合并起来,HDFS用来管理合并起来的空间。 YARN 管理集群中的CPU以及内存(YARN是基于HDFS之上的) 框架: HBase: 分布式列式数据库(分布式数据库,列式数据库),HBase不支持多行事务和跨表事务。下面我们介绍列式数据库与关系数据库的区别。 EmpId Lastname原创 2016-11-01 10:54:33 · 357 阅读 · 0 评论 -
HDFS学习
HDFS的设计目标节点失效是常态 —宕机 —磁盘坏点 理想状态 一个或几个节点失效不影响数据的完整性。HDFS设计原则文件以块(block)方式存储 •每个块带下远比多数文件系统来的大(预设64M) •通过副本机制提高可靠度和读取吞吐量 •每个区块至少分到三台DataNode上 •单一 master (NameNode)来协调存储元数据(metadata) •客户端对文件没有缓存机原创 2016-11-01 15:30:31 · 383 阅读 · 0 评论 -
HDFS备注
1.NN里面主要有两个文件,第一个文件是fsmage里面主要存储映射关系元数据。 例如: File.txt: Blk A: DN1,DN5,DN6 Blk B : DN7,DN1,DN2 Blk C : DN5,DN8,DN9 可以看到一个文件分为多个block,每一个block3个DN存储。 第二个文件是edit主要存储操作日志。 2.当NN停止之前,NN什么都不处理,当NN原创 2016-11-01 16:16:56 · 287 阅读 · 0 评论 -
Hadoop安装
一.软件各个版本 软件 对应版本 Jdk 1.7 Hadoop 2.6.4 hbase 1.2.2 zookeeper 3.4.8 spark 1.6.2 二.修改配置主机 1.修改各个主机名 命名分别如下: dataminingmaster dataminingslave1 dataminingslave2 dataminingslave3 datami原创 2016-11-01 13:54:19 · 314 阅读 · 0 评论 -
windows7连接hbase创建表
windows7连接hbase创建表的代码如下:package connectHbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HC原创 2016-11-29 17:34:19 · 2506 阅读 · 0 评论 -
windows下把数据从oracle导入hbase
随着数据量的增大,oracle的查询速度就有点捉襟见肘,这个时候我们需要把数据从oracle数据库导入到hbase,然后使用hbase进行查询数据。 废话不多说,直接上代码.public class Getdata { private static Connection conn; private static Statement st; private ResultSet原创 2016-11-30 13:49:43 · 1177 阅读 · 0 评论 -
windows7上eclipse连接hadoop
使用hadoop首先要打开hadoop,进入虚拟机上面的hadoop中的sbin目录,输入 ./start-all.sh 命令 接下来我们就会看到This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [192.168.13.129]192.168.13.129:原创 2016-11-18 15:09:36 · 507 阅读 · 0 评论 -
windows下eclipse操作hdfs上面的文件
我们使用eclipse编程连接hadoop完成在hdfs上面创建文件。 实验代码如下:public class FileDemo { `private Configuration conf = new Configuration();`// 这里创建conf对象有一个默认参数,boolean原创 2016-11-18 16:15:37 · 889 阅读 · 0 评论 -
SSH框架之Action
package cn.itcast.oa.view.action;import java.util.List;import javax.annotation.Resource;import org.springframework.context.annotation.Scope;import org.springframework.stereotype.Controller;import cn.i原创 2016-12-10 19:21:39 · 541 阅读 · 0 评论 -
hadoop完全分布式搭建
前面是hadoop的伪分布式搭建,在搭建的过程中。 通过生成公钥和私钥,然后把公钥拷贝到子节点上面(详情见百度)。这样就可以SSH免密码登录,然后我在主节点上面使用SSH use@hostname 可以免密码登录子节点,但是在hadoop启动的时候,我不能免密码登录,并且登录用户是主节点的用户名@子节点的hostname,后来百度一下发现hadoop很傻,它默认每一个节点的用户名都跟主节点的用户名原创 2016-12-12 16:07:47 · 473 阅读 · 0 评论 -
Windows7下实现wordcount
本人初学hadoop,在完成windows下面通过Java编程导入数据到hdfs后,一直想完成hadoop中MR的经典程序wordcount(相比学习语言写一个helloworld程序) 下面介绍wordcount的调试过程。 1.首先配置hadoop_home 2.在path中添加%hadoop_home%\bin; 3.在%hadoop_home%\bin下面添加hadoop.dll,w原创 2016-11-24 15:29:20 · 1098 阅读 · 0 评论 -
Hbase单机模式安装和使用
1.解压压缩包 tar -zxvf hbase-1.2.2-bin.tar.gz 2.修改配置文件 (1)hbase-env.sh 命令:vi conf/hbase-env.sh 加入如下: export JAVA_HOME=/home/dm/opt/jdk1.7.0_79 export HBASE_CLASSPATH=/home/dm/opt/hadoop/etc/hadoop原创 2016-11-26 15:00:06 · 526 阅读 · 0 评论 -
hive分区表插入和查询
hive分区表插入报错In Hive the partitioning "columns" are managed asmetadata>> they are not included in the data files, instead they are used as sub-directory names. So your partitioned table has j...原创 2019-07-15 20:47:30 · 2090 阅读 · 0 评论