Hadoop
文章平均质量分 78
lkq0112
这个作者很懒,什么都没留下…
展开
-
Hadoop学习笔记一(通过Java API 操作HDFS,文件上传、下载)
package demo.hdfs; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.BlockLocation; import org.apache.hadoop.fs.FileStatus; import org.apac转载 2018-01-23 19:50:34 · 2613 阅读 · 0 评论 -
SQL中的多表查询
1、笛卡尔积:举例 2、根据连接条件的不同: (*)等值连接 (*)不等值连接 (*)外连接 (*)自连接 二、多表查询:等值连接 查询员工信息:部门名称 员工姓名 select d.dname,e.ename from emp e,dept d where e.deptno=d.deptno; 三、多表查询:自连接:就是通过表的别名,将同一张表视为多张表 查询员工转载 2018-01-25 17:10:53 · 5135 阅读 · 0 评论 -
MapReduce的高级特性(4、合并: Combiner)以及案例 distict去重以及MR的核心shuffle(洗牌)
(*)什么是合并?在Map端先进行一次Reducer的操作,Combiner是一种特殊的Reducer (*)好处:减少Map输出到Reducer中的数据量,从而提高性能 (*)举例:使用Combiner重写WordCount程序 (*)注意事项: ----> 编程:求平均值 谨慎使用!!!! (1)并不是所有的问题都可以使用Combiner: 求平均值 (2)引入了Co转载 2018-01-25 16:57:15 · 420 阅读 · 0 评论 -
MapReduce的高级特性 3、分区: Partition
MapReduce的高级特性 3、分区: Partition (*)MR默认只有一个分区(一个输出的文件);如果有多个分区,就有多个输出文件 /output/0918/s8/part-r-00000 /output/0918/s8/part-r-00001 /output/0918/s8/part-r-00002 (*)什么是分区?结合一下Oracle的表转载 2018-01-25 16:48:17 · 1360 阅读 · 1 评论 -
MapReduce的高级特性 (2、排序)
-------------------------------------------------------------------------------------------------------------------- 2、排序: (*)Java的排序:实现接口Comparable (*)MR的排序:按照Map的输出的key(按照key2进行排序) (1)基本数据类型:转载 2018-01-25 16:40:42 · 207 阅读 · 0 评论 -
MR的高级功能 1、序列化
(*)Java的序列化:如果一个类实现了Java的序列化接口(Serializable),这个类的对象可以作为InputStream和OutputStream对象 (*)MR的序列化:(1)所有的hadoop的数据类型都实现了Hadoop的序列化 (2)如果一个类实现了Hadoop的序列化接口(Writable),这个类对象可以作为Map和Reduce的输入和输出(key value)转载 2018-01-25 16:22:52 · 527 阅读 · 0 评论 -
MR的案例:求每个部门的工资总额
MR的案例:求每个部门的工资总额 1、表:员工表emp SQL: select deptno,sum(sal) from emp group by deptno; DEPTNO SUM(SAL) ---------- ---------- 30 9400 20 10875 10 8750 2、开发MR实现 [root@111转载 2018-01-25 14:41:19 · 2220 阅读 · 0 评论 -
MapReduce开发自己的wordcount程序
1、Mapper阶段 2、Reducer阶段 3、主程序job阶段 ===================================================================== 1、Mapper阶段 package demo.wc; import java.io.IOException; import org.apache.hadoop.io转载 2018-01-25 14:26:12 · 249 阅读 · 0 评论 -
Java 的RPC:remote procedure call 远程过程调用
RPC:remote procedure call 远程过程调用 Hadoop实现了RPC协议 (*) Server (*) Client ======================================================================== (*) RPC服务Server端 1、首先定义自己的接口实现Hadoop的VersionedPr转载 2018-01-25 14:12:16 · 593 阅读 · 0 评论 -
Java 的动态代理实例(JDBC的数据库的连接池(DataSource))
问题:以下两种方式的区别是什么? //注册数据库的驱动 Class.forName(driver); //还有一种方式 //DriverManager.registerDriver(new com.mysql.jdbc.Driver()); ==================================================================转载 2018-01-25 13:53:12 · 671 阅读 · 0 评论 -
Java 的动态代理
1、Java的动态代理对象:本质是一种包装设计模式(特点:不修改源码的情况下,增强某个方法的功能) 应用案例:JDBC的数据库的连接池(DataSource) 1、首先定义接口 2、定义接口的实现类 3、创建真正对象和代理对象,并用代理对象去实现增强功能方法 ==========================================================转载 2018-01-25 13:39:55 · 130 阅读 · 0 评论