自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 大数据hadoop系列:Hive优化

Map阶段的优化作业会通过input的目录产生一个或多个map任务。a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数...

2019-09-14 23:14:56 347 1

原创 大数据hadoop系列:Hive HQL常用操作

1.hive HQL 的表操作:1.1 创建数据库hive> create database zhanzhy;OKTime taken: 0.073 secondshive> show databases;OKdefaultzhanzhyTime taken: 0.012 seconds, Fetched: 2 row(s)hive> -- 查看数据库详...

2019-09-13 17:57:10 523

原创 大数据hadoop系列:Hive的安装与配置

下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这边已我安装的1.2.2版本为例,可自行选择稳定版本或最新版本解压hive包tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /usr/local/srccd /usr/local/src# 创建软连接ln -s apache-hive-2...

2019-09-13 16:14:11 358

原创 大数据hadoop系列:Hive功能和架构概述

引入原因:1.对存在HDFS上的文件或HBase中的表进行查询时,要手工写一堆MapReduce代码2.对于统计任务,只能由懂MapReduce的程序员才能搞定3.耗时耗力,更多精力没有有效的释放出来Hive是什么1.Hive是一个SQL解析引擎 ,将SQL语句转译成MR Job,然后再在Hadoop平台上运行,达到快速开发的目的。2.Hive中的表是纯逻辑表,就只是表的定义等,即表的...

2019-09-13 15:29:52 1482

原创 大数据hadoop系列:python实现MapReduce 词频统计

map代码:map_t.pyimport sysimport rep = re.compile(r'\w+')for line in sys.stdin: ss = line.strip().split(' ') for s in ss: if len(p.findall(s)) < 1: continue s...

2019-09-13 14:05:11 3175 1

原创 大数据hadoop系列:MapReduce工作原理简述

MapReduce的执行流程MapReduce执行流程分为map进程和reduce进程两部分,对应上图中左右两部分map部分:1、stdin(input的是标准输入流,传入的是一整块的数据块,hadoop2.x中HDFS block的大小默认128M,hadoop1.x为64M)数据进来的时候会split切分成一条一条记录的形式,经过map函数操作(如wordCount),输出后的数据进入到...

2019-09-11 22:36:29 805

原创 大数据概述及电信大数据应用

一:大数据的应用场景马云:IT行业走向DT(Data technology)时代2015 大数据峰会:过去7年我们从互联网创业到互联网产业,很快进入互联网经济,而且正在从IT走向DT时代,也许昨天称为IT领袖峰会,未来要称DT领袖峰会,DT不仅仅 是技术提升,而是思想观念的提升。DT和IT时代区别,IT以我为中心,DT以别人为中心,DT要让企业越来越强大,让你员工强大。DT越来越讲...

2019-09-10 23:54:46 4628

原创 使用pyspark的方式处理LCS问题

lcs动态规划法二维数组表达使用二维数组C[m,n]C[i,j]记录序列的Xi和Yj的最长子序列长度当i = 0或者j = 0时,空序列是Xi和Yj的最长公共子序列,古C[i,j] = 0创建hive表并导入要lcs的数据create table lcs_data(a string,b string)row format delimited fields terminated ...

2019-08-10 19:40:30 222

原创 HBase基础操作:命名空间、建删改表、增删改查、分区

启动HBase[root@master bin]# ./start-hbase.sh 进入HBase数据库[root@master bin]# hbase shell查看数据库状态hbase(main):001:0> status1 active master, 0 backup masters, 3 servers, 0 dead, 0.6667 average load...

2019-07-30 22:14:19 2000

原创 大数据hadoop系列:伪分布式环境搭建

目录配置静态IP清除防火墙规则以及关闭SELinux1.防火墙2.永久关闭SELinux修改hostname、hosts文件、ssh互信准备修改ssh无密码登录复制子节点ssh互信配置静态IP进入到该目录下cd /etc/sysconfig/network-scripts使用vi/vim编辑器查看并编辑网络配置文件(centOS版本不同名称可能不一样)vim ifcfg-ens33...

2019-06-19 20:38:32 311

原创 git bash中文输出方块乱码解决方法

今天用到git使用java命令处理加密问题的时候,发现java命令输出的中文乱码网上找了好多方法都是这样操作$ git config --global core.quotepath false # 显示 status 编码$ git config --global gui.encoding utf-8 # 图形界面编码$ git config --...

2019-06-19 16:40:28 1662 3

原创 大数据hadoop系列:CentOS 7.X x64 系统安装(详细)

CentOS 7.6x64 系统安装刚好手上一台新电脑,重新开始记录。从hadoop完全分布模式的搭建到大数据的学习之路,简单通俗易懂,适合无基础的新人参考。所需环境配置系统CentOS 7.6x64软件VMware 141、VMware 14(虚拟机)自行百度下载安装,跟普通软件一样操作安装即可2、CentOS 7.6x64 系统安装1.官网下载地址:https://ww...

2019-06-18 09:30:27 517

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除