- 博客(20)
- 资源 (2)
- 收藏
- 关注
原创 多线程之生产者-消费者问题(信号量机制)
一、生产者消费者问题生产者-消费者问题,简单描述就是,生产者向仓库中存入生产的产品,消费者从仓库中取走产品消费。需要满足的三个条件:1.如果仓库已满,那么生产者不能再向仓库中存入产品,只能等待仓库有空闲;2.如果仓库为空,那么消费者无法从仓库中取出任何产品进行消费,只能等待仓库有库存产品;3.生产者和消费者不能同时访问仓库。注1:条件1和2即是满足了生产者与消费者间的同步,...
2019-04-28 23:41:55 3589 2
原创 Hive之自定义标准函数UDF
一、自定义简单标准函数(UDF)1.定义: 标准函数:指一行的一列或多列作为参数传入,返回单一值的函数。 如:to_date(string timestamp),sqrt(double a),concat(string a,string b)等。2.实现自定义concat: 功能:用于将两个输入参数连接起来。 两个重载函数:myconcat(strin...
2019-04-26 13:31:03 1103
原创 Hive之HQL数据查询
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、select...from语句--支持列和表的别名,支持嵌套,限行> select l.name ln, r.course rc> from (select id, name from left) l> join (select id, course from righ...
2019-04-25 17:08:34 452
原创 Hive之HQL数据操作(导入导出)
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、数据导入1.1.装载数据--将HDFS文件中数据 追加 导入Hive表> use test; --切换为test数据库> load data inpath '/user/hadoop/data' into table test;--导入表test> load ...
2019-04-23 23:38:45 1273
原创 Hive之HQL数据定义
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来HQL数据定义1.数据库database操作--创建数据库> create database test;> create database if not exists test;--查看已存在的数据库> show databases;--注:数据库在HDFS中的目...
2019-04-23 23:36:33 667
原创 Hive常用命令笔记
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来--本地启动hive$ hive--执行hql> select count(*) from test;--本地执行hql后立刻退出$ hive -e 'select count(*) from test'--本地执行hql后立刻退出,并去除附加信息和MR日志$ hive -S -...
2019-04-23 23:09:48 144
原创 MapReduce作业的几种输入输出方式设置
一、作业文件输入分片读入格式设置import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;//1.设置文...
2019-04-22 21:26:30 981
原创 MapReduce编程之全排序
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、全排序1.全排序也就是全局排序,意为多区间上的全局排序。2.这是相对单区间单Reducer任务排序而发展出来的多区间多Reducer任务的排序。可以提高程序的并行性,提升效率。3.多区间的排序时间受限于最长排序时间的那个区间,所以为使总体排序时间最短,就要求数据在各区间的分布相对均匀。可...
2019-04-22 12:40:55 1106
原创 MapReduce编程之二次排序
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、二次排序二次排序就是先按某一列先进行排序,然后在此基础上再对另一列排序。(参看如下表数据)--待排序数据: --第一种排序结果: --第二种排序结果: --第三种排序结果: --第四种排序结果:4 2 0 5 ...
2019-04-21 20:06:56 1020
原创 MapReduce编程之连接Join
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、设计思路HDFS上存放两个文件,一个记录了学生基本信息(姓名,学号),文件名“student_info.txt”,文件内容为: Jenny 00001 Hardy 00002 Bardley 00003 ... 另一个文件记录了学生的选...
2019-04-19 23:13:02 629 1
原创 MapReduce的Combine操作&shuffle控制&sort控制
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、Combine操作1.combine在MapReduce中是一个可选的过程。2.Hadoop性能很大程度受限于网络带宽,map函数输出的中间结果都是通过网络传递给reduce函数的,所以提高中间结果数据量就可以提高程序运行效率。3.combine操作是对map中间结果传递给reduce之...
2019-04-19 16:34:17 2083
原创 MapReduce的Reducer类
一、Reducer类源码Reducer模板类 Reducer class Context -- 保存了作业运行的上下文信息,例如作业配置信息、InputSplit信息、任务ID setup() -- reduce前的准备工作(可重写) reduce() -- 承担主要的对键值对的处理工作(可重写) cleanup() -- 收尾工作...
2019-04-19 15:21:46 1770
原创 MapReduce的Mapper类
一、Mapper类源码Mapper模板类 Mapper class Context -- 保存了作业运行的上下文信息,例如作业配置信息、InputSplit信息、任务ID setup() -- map前的准备工作(可重写) map() -- 承担主要的对键值对的处理工作(可重写) cleanup() -- 收尾工作,例如关闭文件、执...
2019-04-19 15:03:14 1760
原创 MapReduce的过程图解
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、MapReduce从输入到输出二、文件块与输入分片的关系三、map及中间结果的输出四、shuffle及reduce过程...
2019-04-18 18:25:05 823
原创 hadoop的Writable类
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来序列化是指将对象转化为字节流以便在网络上传输或写到磁盘进行永久存储,而反序列化是指将字节流转化为对象的过程。Hadoop主要两方面使用序列化技术:IPC(进程间通信)和数据持久化。Hadoop提供的序列化格式Writable(org.apache.hadoop.io.Writable),相比Java...
2019-04-18 14:40:49 570
原创 hadoop常用接口及管理页面及问题收集
50070端口:访问hadoop管理页面8088端口:访问Yarn管理页面8042端口:从节点node管理页面,可查看节点的MR任务处理信息(Tools ---> Local logs)注:windows下访问UI管理页面时,需设置“C:\Windows\System32\drivers\etc\hosts”文件,添加各节点主机名,方便访问。常见问题收集:问题1:端口无法...
2019-04-18 13:43:10 1071
转载 Linux关闭防火墙操作笔记
一、出现的问题场景:1.如果在能正常启动hadoop,且windows能ping通linux的前提下,windows任然不能访问linux下hadoop的50070端口,则是linux的防火墙开启阻挡的原因。二、解决方案:步骤1:关闭防火墙;--首先查看防火墙状态> service firewalld status-<会显示绿色的active状态>--关闭...
2019-04-17 21:17:45 675
原创 MapReduce编程之入门 Hello Word Count
目录1.单词计数Mapper类2.单词计数Reducer类3.单词计数main函数类4.运行程序------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来注:实际上此文件很小(只有四行英文),查看作业日志:文件分块是1个,map是1个,reduce是1个。需要引入的Jar包:hadoop-common-2.9.2.jar和h...
2019-04-14 23:49:27 360
原创 HDFS提供的Java API接口编程笔记
目录1.读取HDFS文件(java.net.URL实现)2.读取HDFS文件(Hadoop提供的FileSystem实现)3.向HDFS写入文件4.创建HDFS目录5.删除HDFS上的文件或目录6.查看HDFS文件存在7.列出HDFS目录下的文件或文件名8.查询HDFS文件存储的位置9.写入SequenceFile10.读取SequenceFile本地访...
2019-04-13 21:35:29 1270 1
原创 Linux常用命令笔记(持续更新)
su root -- 更换用户users -- 查看当前用户passwd -- 修改当前登陆用户密码useradd wayne -- 添加以wayne用户名的用户passwd wayne -- 修改用户wayne的密码df -h -- 查看文件系统的使用情况cat /proc/version -- 查看Linux版本cat /etc/hosts -- 查看主机名及IPifcon...
2019-04-11 23:08:03 299
Pdf标签目录格式化工具(txt目录)
2019-01-26
Hadoop技术内幕(三册 手动制作完整目录)
2019-01-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人