自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 阶段总结

这两个月的时间,学习了MySQL和Hadoop还有Hadoop的一些组建包括hive和sqoop,遗憾的是没有接触到flume。收获很多,大体上在hive方面更加深入了一些。sqoop的那一堆参数也了解了一些,就算不会也可以百度,把想做的东西做出来。不过MapReduce的编程寸步未尽,嘿嘿嘿,下阶段我想深入学习spark和scala,所以注意力没在MR上。遗憾就是感觉MySQL的基础实在不...

2018-01-30 13:53:37 207 1

原创 Hive执行计划详解

Hive的底层就是MapReduce的编程实现,我们可以通过执行计划详细的了解执行过程。对于我们对底层的理解,有很大的帮助。语法及结构官方对Hive Explain的英文解释,如果大家英文不错的话,强推: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain首先,Explain的语法:EXPLAIN [EXT

2018-01-29 17:21:53 20873 3

原创 sqoop增量导入

sqoop的增量导入分为多种模式,有append和lastmodified两种模式。需要应用的主要sqoop参数有:–check-column:指定增量导入的依赖字段,通常为自增的主键id或者时间戳–incremental:指定导入的模式(append或lastmodified)–last-value:指定导入的上次最大值也就是这次开始的值Append模式1.建立自增主键表:create tab

2018-01-28 14:35:55 1769 1

原创 手动释放cache

释放内存cache,首先我们要查看一下使用情况例如我的电脑: hadoop:root:/root:>free -m total used free shared buffers cachedMem: 1869 265 1603 0 22

2018-01-27 20:52:45 429

原创 Sqoop+Hive+MySQL用户某时间范围,区域最受欢迎的Top N的产品 中级版

写了两个脚本,一个处理了数据分析的一部分,一个处理了hive导回mysql,脚本刚开始接触,实在是不怎么样,大家对付看处理数据分析hadoop:hadoop:/home/hadoop/project:>vi makedata.sh#!/bin/bashnewday=2016.5.6hive -e"insert overwrite directory '/project/$newd

2018-01-27 16:57:52 232

原创 Sqoop+Hive+MySQL用户某时间范围,区域最受欢迎的Top N的产品 初级版

数据展示: 1.city_info mysql> select * from city_info;+---------+-----------+--------+| city_id | city_name | area |+---------+-----------+--------+| 1 | 北京 | 华北 || 2 | 上海

2018-01-25 15:23:50 388

原创 sqoop导出到mysql的字符集乱码问题

我将在HDFS中的文件导入到已将建好的MySQL表中。可是出现了如下问题:mysql> select * from endsql_table;+------+-----------+------+------+----------+| area | pname | pnum | rank | day |+------+-----------+------+-----

2018-01-25 14:42:13 2498

原创 swap分区详解

Linux内核为了提高读写与速度,将文件在内存中进行缓存,这就是Cache Memory(缓存内存)。CM在程序运行完并不会自动释放。所以在Linux程序频繁读写文件的时候,系统物理内存就会不足。当其不足的时候,必然要将内存释放,以供当前正在运行的程序使用。而被释放的程序就会被临时保存在swap空间中。一旦再次需要被释放的程序,就可以从swap中恢复到内存中。swap 分区标准 4G以内的

2018-01-24 17:46:10 878

原创 sqoop安装及驱动问题

sqoop 下载及解压 链接地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.7.0.tar.gz解压:tar -zxvf sqoop-1.4.6-cdh5.7.0.tar.gzsqoop 添加环境变量 hadoop:hadoop:/home/hadoop:>vi .bash_profile # .bash_profil

2018-01-24 16:14:02 1750

原创 YARN and MapReduce的【内存】优化配置详解

原文地址:http://blog.itpub.net/30089851/viewspace-2127850/转载:在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(

2018-01-24 15:39:22 201

原创 hive 调优概要

hive 优化数据倾斜:join优化宏观角度 架构:全局 分区表 合理利用中间结果集 SQL:执行计划 参数 自动转mapjoin优化: 1. 列裁剪 分区裁剪 桶裁剪 big table和big table做join 2.推测式执行 根据木桶原理,判断最慢的

2018-01-23 22:54:55 221

原创 sqoop 参数

DBMS导入到hive表sqoop import–connect jdbc:mysql://localhost:3306/wl 连接数据库,指定数据库 –username root 用户名 –password 123456 密码 –table table_name 指定表名 –hive-import 判断导入到hive –hive-database database_name 导入

2018-01-23 22:46:01 636

原创 2018.1.16

1.后台命令有哪些 & nohup screen2.screen创建会话 进入会话 退出会话 查看会话列表screen -S screen -r ctrl a d screen -list3.说说你们知道的压缩 解压命令和参数tar -zxvf unzip -xzvf unzip -czvf4.解压会遇到一个问题,是什么 用户组和用户权限问题5.jps命令输完,假如不正常信息,那么

2018-01-17 13:34:40 158

原创 2018.1.15

1.查看当前目录的命令 pwd2.理解绝对路径和相对路径绝对路径 从根目录开始的路径 相对路径,从当前路径开始的路径3.切换到上一层目录cd ..4.切换到上一次命令cd -5.查看历史有哪些命令 history6.执行 第55行历史命令!557.想想新文件的产生有哪些命令可以实现touch vi echo “”>a.txt8.那么文件夹呢?mkdir9.级联创建文件夹的参数呢? -p10.

2018-01-17 13:08:57 156

原创 MapReduce Shuffle详解

首先,我们先将MR Shuffle的整个流程进行简述: 一.概要:Map端分区排序合并Reduce端复制归并reduce 大概分为五个主要步骤二.架构图三.详解Map端分区 Partition首先,为了减少频繁IO的操作,先将数据写入到环形内存缓冲区中,默认大小为100MB,缓冲区中存在一个可设置的阙值(默认为0.8),当阙值达到0.8

2018-01-14 22:27:57 592

转载 YARN的内存和CPU配置

本文链接地址:http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.htmlHadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Conta

2018-01-14 17:52:26 221

原创 2018.1.10

1.创建文件哪几种命令touch vi echo ‘1’>>a.txt2.创建文件夹哪几种命令 mkdir -p4.查看文件大小的两种命令ll -h du -sh6.隐藏标识是什么. 7.查看隐藏的命令是什么 ll -a8.maven 使用时,会创建什么名称的隐藏文件,作为仓库.m29.进入到上一层目录的命令cd ..10.进入到上一次目录的命令cd -11.简述什么叫绝对路径和相对路径绝

2018-01-14 09:15:44 202

原创 2018.1.11

1.添加用户,删除用户的命令 useradd userdele2.添加用户组,删除用户组的命令 groupadd groupdel3.然后将一个用户的主组变更为另外一个组4.或者将一个用户添加到另外一个用户组5.添加完用户后,哪个文件会有一条记录 /user/passwd 6.su 切换一个用户时,发现切换不过去,是不是也要修改这个文件,那么该怎样修改?/bin/false7.su sudo

2018-01-12 21:16:23 150

原创 2018.1.12

1.MySQL的部署流程,默认配置文件在哪?/etc/my.conf2.MySQL的查看当前有哪些DB?show databases;3.切换到db1的命令use db1;4.查看当前db有哪些表?show tables;5.查看表的创建语句?show create table table_name;6.查看表的字段有哪些desc table_name;7.MySQL字符集,从服务端、客户端、DB端

2018-01-12 19:16:59 477

原创 Map join和Common join详解

利用hive进行join连接操作,相较于MR有两种执行方案,一种为common join,另一种为map join ,map join是相对于common join的一种优化,省去shullfe和reduce的过程,大大的降低的作业运行的时间。 一.先决条件emp表hive> select * from emp;OK369 SMITH CLERK 7902 19

2018-01-12 13:59:46 14338

原创 shell脚本实现建表与数据导出

一. 基础知识hive -e:运行‘ ’内的查询语句hive -f:运行指定文件的内容(内容为sql语句)二.题目 写个shell脚本,将本地TXT文档加载到hive中,然后查询这个表的数据到本地另外一个文件 三. 数据 a.txthadoop:hadoop:/home/hadoop:>vi a.txt 369 SMITH CLERK 7902 1980-12-1

2018-01-11 15:57:04 1965

原创 2018.1.5练习

1.左表ID为1为三条,右表ID为1为10条数据,请问left join多少条? 30 2.hive中的数据分为两块,哪两块,分别存储在哪里 MySQL和HDFS 3.现在我们学的hive的执行引擎是什么? MapReduce 4.文件格式有哪些?说说你们预习的5.压缩格式有哪些?说说你们预习的6.一般我们创建表默认是外部表吗? 内部表7.外部表的语法是什么? [EXT

2018-01-11 15:27:22 156

原创 Hive自定义函数提取网址信息

需求:我们需要实现自定义函数,来提取dns中的名字和对应的汉字。并将查询信息写入到另一张表 一. 显示需求基础表 1 www.baidu.com 2 www.google.com 3 www.taobao.com最终结果 baidu 百度 google 谷歌 taobao 淘宝二. 首先我们需要用编写IDEA编写两个UDF函数,来得到两个字段的结果。编写实现

2018-01-11 14:42:29 732

原创 静态分区表和动态分区表

在Hive中处理数据时,当处理的一张表的数据量过大的时候,每次查询都是遍历整张表,显然对于计算机来说,是负担比较重的。所以我们可不可以针对数据进行分类,查询时只遍历该分类中的数据,这样就能有效的解决问题。所以就会Hive在表的架构下,就会有分区的这个概念,就是为了满足此需求。静态分区表静态分区表的创建create table order_partition(number string,tim

2018-01-09 23:15:57 2571 1

原创 Hive DML语法

加载文件到表 LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]hive> load data local inpath "/home/hadoop/data/deptn.sql" overwrite into

2018-01-09 16:37:00 756

原创 Hive DDL语法

创建数据库 语法:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, …)];代码演示创建数据库,并查看hdfs文件系统情况,hiv

2018-01-09 13:34:41 181

原创 Hive内部表和外部表的区别

在了解内部表和外部表区别前,我们需要先了解一下hive的架构 大家可以简单看一下这个架构图,我介绍其中要点:hive的数据分为两种,一种为普通数据,一种为元数据。元数据存储着表的基本信息,增删改查记录,类似于Hadoop架构中的namespace。普通数据就是表中的详细数据。hive的元数据默认存储在derby中,但大多数情况下存储在MySQL中。普通数据如架构图所示存储在hdfs中。下面

2018-01-08 23:43:40 1370

原创 2018.1.4练习

1.hive一般用来做什么 数据仓库2.hive数据分为两块,请问分别是什么,分别存储在哪? 元数据mysql;数据hdfs3.建表时,默认是外部表还是内部表? 内部表4.外部表是不是要指定一个地址? 是5.drop外部表会删除数据吗 不会6.默认换行符是什么 \n7.默认分隔符是什么? \t8.换行和分割符语法是什么?假如不知道语法,知不知道在官网哪个地方去找呢?

2018-01-05 16:26:38 157

原创 MySQL字符集问题

在MySQL的表中插入中文字符的时候,就会发生一些错误, 或者显示乱码 插入之后显示的并不是中文字符,而是乱码。首先看一下我的MySQL的字符集设置mysql> show variables like '%character%' -> ;+--------------------------+----------------------------------+| Var

2018-01-05 15:43:35 267

原创 2018.1.3练习

1.MySQL的二进制部署,那么默认配置文件在哪? my.cnf2.MySQL的登录命令是什么 mysql -u用户名 -p密码3.查看db的命令 show databases;4.查看哪些表的命令 show tables;5.查看表的创建语句 show create table XXX6.查看表的字段哪些的命令 desc table; -7.字段类型 说说哪些 int

2018-01-03 14:47:21 160

原创 2018.1.1 练习

1.vi三种模式 编辑、命令行、尾行2.跳转到最后一行的快捷键 G3.跳转到第一行的行首 gg4.跳转到行尾 $5.删除当前行 dd6.删除当前行及以下行 dGvi怎样覆盖内容的流程 >>8.强制保存退出 wq!9.查看文件内容哪些命令 cat、more、less10.文件大小哪两个命令查看 ll -h、du -sh11.文件夹大小 du -sh12.隐藏

2018-01-03 13:27:36 229

原创 HIVE-1.1.0-cdh5.7.0安装

环境说明Hadoop-2.6.0-cdh5.7.0JDK1.7MySQL5.6mysql-connector-java-5.1.45安装包下载及解压下载地址:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压:tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz配置环境变量hado

2018-01-03 12:20:27 2144 1

原创 Hadoop-2.6.0-cdh5.7.0安装详解

下载Hadoop和JDK下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk:注册甲骨文账号下载,推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software/jdk-7u80-linux-x64.tar.gz -C /usr/ja

2018-01-02 16:40:59 8090 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除