Hadoop
套码的汉子
有七分喜欢的人,就只能跟至亲密友分享,有十分喜欢,那就谁也舍不得说了憋着,每天憋着一点小高兴像只松鼠攒着满腮帮子的果仁。
展开
-
大数据之Hadoop2
大数据之Hadoop2.0入门2一.YARN组件讲解ResourceManager全局的资源管理器,整个集群上只有一个,负责集群资源的统一调度分配,负责对各个NodeManager上的资源进行统一的管理和调度。ApplicationMaster它负责向ResourceManager申请资源,并要求NodeManager启动可以占用一定资源任务,客户提交的每个应用程序都包含一个Applic...原创 2019-06-08 03:04:26 · 261 阅读 · 0 评论 -
大数据平台--Hive入门4
大数据平台–Hive入门4——使用Java连接Hiveserver2metastore 元数据服务减少mysql连接(hiveserver2也可能是HA架构)权限设置hiveserver2通过连接metastore服务连接mysql。配置metastore服务hive-site.xml<?xml version="1.0" encoding="UTF-8" standa...原创 2019-06-29 21:06:19 · 243 阅读 · 0 评论 -
大数据平台--Hive入门3
大数据平台–Hive入门31.Hive常用的hql语句(1)过滤wherehive (default)> select emp from emp where sal > 3000;FAILED: SemanticException Error in parsing hive (default)> select * from emp where sal >...原创 2019-06-29 21:05:27 · 123 阅读 · 0 评论 -
Join On MapReduce
Join On MapReduce第一种实现思路:准备数据:cls.txtCLassA,Alex,R108,1ClassB,Mike,R115,2ClassC,Jack,R121,3ClassD,Nike,R206,4stus.txt1001,Tomm,male,20,31002,Lucy,female,18,21003,Mark,male,19,12001,Json...原创 2019-06-29 20:08:42 · 144 阅读 · 0 评论 -
MapReduce小案例——找朋友
MapReduce小案例——找朋友需求:在朋友圈内有一票人,他们之间加了微信好友,现在我们需要找出他们两两共同的好友?有上图可知,输入数据,他们所拥有的好友为:friend1.txtA:B,D,F,I,J,OB:A,C,E,G,K,PC:B,D,F,H,RD:A,C,E,H,L,SE:B,D,H,MF:A,C,I,JG:B,K,N,OH:C,D,E,MI:A,F,J,L,Q...原创 2019-06-27 13:24:21 · 689 阅读 · 0 评论 -
MapReduce单词统计,单项求和
MapReduce:单词统计,单项求和前奏:pom.xml <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</v...原创 2019-06-24 10:10:50 · 322 阅读 · 0 评论 -
Hive开启WebUI
文章目录Hive开启WebUIHive开启WebUI在Hive的配置文件中添加如下内容: <property> <name>hive.server2.webui.host</name> <!--主机名或ip--> <value>hadoop02</value> </property> <...原创 2019-07-02 09:28:28 · 1760 阅读 · 1 评论 -
大数据平台--Hive入门3
大数据平台–Hive入门31.Hive常用的hql语句(1)过滤wherehive (default)> select emp from emp where sal > 3000;FAILED: SemanticException Error in parsing hive (default)> select * from emp where sal >...原创 2019-06-26 02:19:49 · 176 阅读 · 0 评论 -
大数据之Hadoop2
大数据之Hadoop2.0入门1.大数据概念介绍大数据特性与应用特性:多,快,繁;大数据起源于社交网络,发展于电商平台,大数据的特征:快速的数据流转(Velocity),多样的数据类型(Variety),海量的数据规模(Volume),发现数据价值(Value)。Volume:数据量大 TB,PBVariety:数据多种多样,Veracity:真实性,数据的准确性...原创 2019-06-05 04:30:24 · 224 阅读 · 0 评论 -
Java操作HDFS文件系统
Java API操作HDFS文件系统pom.xml <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</versi...原创 2019-06-20 23:07:54 · 170 阅读 · 0 评论 -
大数据平台--Hive入门2
l大数据平台–Hive入门2一.Hive的常用配置以及Linux命令选项1.Hive日志配置[root@hadoop01 conf]# cp hive-log4j.properties.template hive-log4j.properties[root@hadoop01 conf]# vi hive-log4j.propertieshive.log.dir=/opt/module...原创 2019-06-16 00:24:12 · 228 阅读 · 0 评论 -
Hadoop MapReduce V2
Hadoop MapReduce V2MapReduce介绍MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,...原创 2019-06-04 04:13:02 · 202 阅读 · 0 评论 -
大数据平台--Hive入门1
大数据平台–Hive入门1一.大数据平台以及ETL介绍1,ETL简介ETL,Extraction-Transformation-Loading,即数据抽取(Extract),转换(Transform),**装载(Load)**的过程,它是构建数据仓库的重要环节。ETL是将业务系统的数据经过抽取,清洗转换之后加载到数据仓库的过程,目的是将企业中分散,零乱,标准不统一的数据整合到一起,为企业的...原创 2019-06-09 15:47:58 · 965 阅读 · 0 评论 -
大数据Hadoop--全分布,HA搭建
大数据Hadoop–全分布,HA搭建一.全分布式环境SSH免密登录以及时间同步设置1.集群时间同步设置(1)模拟内网环境:在集群中找一台服务器作为:时间服务器,例如hadoop01作为时间服务器,hadoop02,hadoop03同步hadoop01。(2)查看Linux中的ntpd时间服务(只需开启时间服务器的ntpd服务):#查看ntpd的状态[root@hadoop02 pro...原创 2019-06-09 06:34:49 · 733 阅读 · 0 评论 -
大数据之Hadoop-MapReduce On Yarn
大数据之Hadoop-Map/Reduce On Yarn1.网站基本指标分析(1)PV:Page View浏览量,页面的浏览次数,衡量网站用户访问的网页数量;用户每打开一个页面就记录一次,多次打开同一个页面则浏览量累计;(2)UV:Unique Visitor,独立访客数,1天内访问某站点的人数(以cookie为依据),一天内同一访客的多次访问只计为一个访客;(3)IP:Internal...原创 2019-06-08 05:44:11 · 179 阅读 · 0 评论 -
Hive编程指南01
文章目录Hive编程指南01命令行界面操作1.Hive中"一次使用"命令2.从文件中执行Hive查询3.hiverc文件4.Hive CLI的其他功能(1)自动补全功能(2)查看操作历史命令5.执行shell命令6.在Hive内使用Hadoop的dfs命令7.Hive脚本中如何进行注释8.显示字段名称数据类型和文件格式1.基本数据类型2.集合数据类型3.文本文件数据编码4.读时模式HiveQL:数...原创 2019-07-01 02:53:08 · 952 阅读 · 0 评论