大数据-Hadoop
帅气的程序员
学习使我快乐
展开
-
MapReduce 自定义输入输出(很有用)
As We Know : Mapper<输入key,输入Value,输出Key,输出Value> Reduce<输入key,输入Value,输出Key,输出Value> 其中mapper的输出key,输出value 一定等于reduce的输入key,输入value自定义输入: map的默认输入key是行的偏移值 value是每一行的数据原创 2017-11-22 10:23:00 · 2212 阅读 · 0 评论 -
Sqoop的Append和Lastmodified
Lastmodified 和Append模式的区别: Append模式处理不了更新数据,而 Lastmodified模式可以Append 支持动态增加 不支持修改sqoop import \--connect jdbc:mysql://192.168.164.25:3306/stock \--username root \--password 111111 \--query "sele原创 2018-01-25 16:57:40 · 3542 阅读 · 0 评论 -
Sqoop导入时注意事项
参考:http://blog.csdn.net/zleven/article/details/53781111导入时需要注意:1)数据库表名需要大写; 我试小写好像也可以 不知道是不是版本问题Imported Failed: There is no column found in the target table xxx. Please ensure th原创 2018-01-25 11:09:54 · 2543 阅读 · 0 评论 -
MapReduce(Shuffer原理)
Shuffer原理两张图片 看懂shuffer原创 2017-11-22 15:07:22 · 648 阅读 · 0 评论 -
Hadoop读写原理和MapReduce执行原理
读流程 1.openfile 客户端 指定文件的读取路径 2.从namenode那里得到文件块的存储位置(元数据信息) 3.根据元数据信息 去指定的datanode上读文件。如果文件特别大,namenode不会一次性把所有的块信息给客户端 ,而是客户端读一部分,读完之后再找namenode去要。如此循环,知道全部读完。 4.读完之后,关闭输入流写流程 1.create file 客户端获原创 2017-11-20 10:33:27 · 742 阅读 · 0 评论 -
Hadoop打Jar 及运行jar
Hadoop打Jar首先 无论哪种方式 job.setJarByClass(WordCountDriver.class);要有。maven 方式: 首先添加pom依赖 指定主类 <build> <plugins> <!--指定JDK为1.8--> <plugin> <groupId>org.apache.maven.plugins</grou原创 2017-11-21 16:02:48 · 1925 阅读 · 0 评论 -
MapReduce(partation,sort,combiner)
相比而言MR重要的就是这些了 分区,排序,结合Partition首先分区 分数数量决定了Reduce数量 反过来说也行 具体是如何分区呢? 上代码 继承这个类 然后这样 那样….具体看 //Mapper Reducer省略//Partition getPartition方法逻辑自己写 //Partitioner<K,V>K ,V 要与Mapper 的输出KEY VALUE原创 2017-11-21 18:38:50 · 242 阅读 · 0 评论 -
Hadoop 查看/杀掉 Job
Java的我稍后再补上:通过命令行的方式: 1.查看所有的Job: hadoop job -list 则显示如下一堆的job: JobId State StartTime UserName Priority SchedulingInfo job_201212111628_11166 1 1375083632268 dbs原创 2017-11-17 17:18:12 · 4181 阅读 · 0 评论 -
HDFS的API
此文档用来提醒自己编写API的步骤 1.获取与服务器集群上HDFS的连接a.获取环境变量Configuration conf=new Configuration(); b.获取HDFs 文件系统 FileSystem fs=FileSystem.get(newURI("hdfs://192.168.234.214:9000"),conf); 2.下载原创 2017-03-02 09:50:24 · 367 阅读 · 0 评论 -
MySql 数据同步(同步关系型、非关系型(hadoop))--canal
参考博客:http://blog.csdn.net/hackerwin7/article/details/37923607注意:本次只是实时获取到了mysql的同步日志 你可以封装成json格式 扔到消息队列 消费这些数据 对hadoop进行更新。我用的消息队列是kafka 执行的是HBase首先先说canal的配置: https://github.com/alibaba/ca原创 2018-01-29 10:23:57 · 800 阅读 · 0 评论