大数据hadoop系列
兰波万
这个作者很懒,什么都没留下…
展开
-
大数据hadoop系列:伪分布式环境搭建
目录配置静态IP清除防火墙规则以及关闭SELinux1.防火墙2.永久关闭SELinux修改hostname、hosts文件、ssh互信准备修改ssh无密码登录复制子节点ssh互信配置静态IP进入到该目录下cd /etc/sysconfig/network-scripts使用vi/vim编辑器查看并编辑网络配置文件(centOS版本不同名称可能不一样)vim ifcfg-ens33...原创 2019-06-19 20:38:32 · 322 阅读 · 0 评论 -
大数据hadoop系列:CentOS 7.X x64 系统安装(详细)
CentOS 7.6x64 系统安装刚好手上一台新电脑,重新开始记录。从hadoop完全分布模式的搭建到大数据的学习之路,简单通俗易懂,适合无基础的新人参考。所需环境配置系统CentOS 7.6x64软件VMware 141、VMware 14(虚拟机)自行百度下载安装,跟普通软件一样操作安装即可2、CentOS 7.6x64 系统安装1.官网下载地址:https://ww...原创 2019-06-18 09:30:27 · 526 阅读 · 0 评论 -
大数据概述及电信大数据应用
一:大数据的应用场景马云:IT行业走向DT(Data technology)时代2015 大数据峰会:过去7年我们从互联网创业到互联网产业,很快进入互联网经济,而且正在从IT走向DT时代,也许昨天称为IT领袖峰会,未来要称DT领袖峰会,DT不仅仅 是技术提升,而是思想观念的提升。DT和IT时代区别,IT以我为中心,DT以别人为中心,DT要让企业越来越强大,让你员工强大。DT越来越讲...原创 2019-09-10 23:54:46 · 4673 阅读 · 0 评论 -
大数据hadoop系列:MapReduce工作原理简述
MapReduce的执行流程MapReduce执行流程分为map进程和reduce进程两部分,对应上图中左右两部分map部分:1、stdin(input的是标准输入流,传入的是一整块的数据块,hadoop2.x中HDFS block的大小默认128M,hadoop1.x为64M)数据进来的时候会split切分成一条一条记录的形式,经过map函数操作(如wordCount),输出后的数据进入到...原创 2019-09-11 22:36:29 · 814 阅读 · 0 评论 -
大数据hadoop系列:python实现MapReduce 词频统计
map代码:map_t.pyimport sysimport rep = re.compile(r'\w+')for line in sys.stdin: ss = line.strip().split(' ') for s in ss: if len(p.findall(s)) < 1: continue s...原创 2019-09-13 14:05:11 · 3202 阅读 · 1 评论 -
大数据hadoop系列:Hive功能和架构概述
引入原因:1.对存在HDFS上的文件或HBase中的表进行查询时,要手工写一堆MapReduce代码2.对于统计任务,只能由懂MapReduce的程序员才能搞定3.耗时耗力,更多精力没有有效的释放出来Hive是什么1.Hive是一个SQL解析引擎 ,将SQL语句转译成MR Job,然后再在Hadoop平台上运行,达到快速开发的目的。2.Hive中的表是纯逻辑表,就只是表的定义等,即表的...原创 2019-09-13 15:29:52 · 1513 阅读 · 0 评论 -
大数据hadoop系列:Hive的安装与配置
下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这边已我安装的1.2.2版本为例,可自行选择稳定版本或最新版本解压hive包tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /usr/local/srccd /usr/local/src# 创建软连接ln -s apache-hive-2...原创 2019-09-13 16:14:11 · 368 阅读 · 0 评论 -
大数据hadoop系列:Hive HQL常用操作
1.hive HQL 的表操作:1.1 创建数据库hive> create database zhanzhy;OKTime taken: 0.073 secondshive> show databases;OKdefaultzhanzhyTime taken: 0.012 seconds, Fetched: 2 row(s)hive> -- 查看数据库详...原创 2019-09-13 17:57:10 · 536 阅读 · 0 评论 -
大数据hadoop系列:Hive优化
Map阶段的优化作业会通过input的目录产生一个或多个map任务。a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数...原创 2019-09-14 23:14:56 · 367 阅读 · 1 评论