2018年01月_逗点儿

原创阶段总结

这两个月的时间，学习了MySQL和Hadoop还有Hadoop的一些组建包括hive和sqoop，遗憾的是没有接触到flume。收获很多，大体上在hive方面更加深入了一些。sqoop的那一堆参数也了解了一些，就算不会也可以百度，把想做的东西做出来。不过MapReduce的编程寸步未尽，嘿嘿嘿，下阶段我想深入学习spark和scala，所以注意力没在MR上。遗憾就是感觉MySQL的基础实在不...

2018-01-30 13:53:37 207 1

原创 Hive执行计划详解

Hive的底层就是MapReduce的编程实现，我们可以通过执行计划详细的了解执行过程。对于我们对底层的理解，有很大的帮助。语法及结构官方对Hive Explain的英文解释，如果大家英文不错的话，强推： https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain首先，Explain的语法：EXPLAIN [EXT

2018-01-29 17:21:53 20873 3

原创 sqoop增量导入

sqoop的增量导入分为多种模式，有append和lastmodified两种模式。需要应用的主要sqoop参数有：–check-column：指定增量导入的依赖字段，通常为自增的主键id或者时间戳–incremental：指定导入的模式（append或lastmodified）–last-value：指定导入的上次最大值也就是这次开始的值Append模式1.建立自增主键表：create tab

2018-01-28 14:35:55 1769 1

原创手动释放cache

释放内存cache，首先我们要查看一下使用情况例如我的电脑： hadoop:root:/root:>free -m total used free shared buffers cachedMem: 1869 265 1603 0 22

2018-01-27 20:52:45 429

原创 Sqoop+Hive+MySQL用户某时间范围，区域最受欢迎的Top N的产品中级版

写了两个脚本，一个处理了数据分析的一部分，一个处理了hive导回mysql，脚本刚开始接触，实在是不怎么样，大家对付看处理数据分析hadoop:hadoop:/home/hadoop/project:>vi makedata.sh#!/bin/bashnewday=2016.5.6hive -e"insert overwrite directory '/project/$newd

2018-01-27 16:57:52 232

原创 Sqoop+Hive+MySQL用户某时间范围，区域最受欢迎的Top N的产品初级版

数据展示： 1.city_info mysql> select * from city_info;+---------+-----------+--------+| city_id | city_name | area |+---------+-----------+--------+| 1 | 北京 | 华北 || 2 | 上海

2018-01-25 15:23:50 388

原创 sqoop导出到mysql的字符集乱码问题

2018-01-25 14:42:13 2498

原创 swap分区详解

Linux内核为了提高读写与速度，将文件在内存中进行缓存，这就是Cache Memory（缓存内存）。CM在程序运行完并不会自动释放。所以在Linux程序频繁读写文件的时候，系统物理内存就会不足。当其不足的时候，必然要将内存释放，以供当前正在运行的程序使用。而被释放的程序就会被临时保存在swap空间中。一旦再次需要被释放的程序，就可以从swap中恢复到内存中。swap 分区标准 4G以内的

2018-01-24 17:46:10 878

原创 sqoop安装及驱动问题

sqoop 下载及解压链接地址：http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.7.0.tar.gz解压：tar -zxvf sqoop-1.4.6-cdh5.7.0.tar.gzsqoop 添加环境变量 hadoop:hadoop:/home/hadoop:>vi .bash_profile # .bash_profil

2018-01-24 16:14:02 1750

原创 YARN and MapReduce的【内存】优化配置详解

原文地址：http://blog.itpub.net/30089851/viewspace-2127850/转载：在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(

2018-01-24 15:39:22 201

原创 hive 调优概要

hive 优化数据倾斜：join优化宏观角度架构：全局分区表合理利用中间结果集 SQL：执行计划参数自动转mapjoin优化： 1. 列裁剪分区裁剪桶裁剪 big table和big table做join 2.推测式执行根据木桶原理，判断最慢的

2018-01-23 22:54:55 221

原创 sqoop 参数

DBMS导入到hive表sqoop import–connect jdbc:mysql://localhost:3306/wl 连接数据库，指定数据库 –username root 用户名 –password 123456 密码 –table table_name 指定表名 –hive-import 判断导入到hive –hive-database database_name 导入

2018-01-23 22:46:01 636

原创 2018.1.16

1.后台命令有哪些 & nohup screen2.screen创建会话进入会话退出会话查看会话列表screen -S screen -r ctrl a d screen -list3.说说你们知道的压缩解压命令和参数tar -zxvf unzip -xzvf unzip -czvf4.解压会遇到一个问题，是什么用户组和用户权限问题5.jps命令输完，假如不正常信息，那么

2018-01-17 13:34:40 158

原创 2018.1.15

1.查看当前目录的命令 pwd2.理解绝对路径和相对路径绝对路径从根目录开始的路径相对路径，从当前路径开始的路径3.切换到上一层目录cd ..4.切换到上一次命令cd -5.查看历史有哪些命令 history6.执行第55行历史命令!557.想想新文件的产生有哪些命令可以实现touch vi echo “”>a.txt8.那么文件夹呢？mkdir9.级联创建文件夹的参数呢？ -p10.

2018-01-17 13:08:57 156

原创 MapReduce Shuffle详解

首先，我们先将MR Shuffle的整个流程进行简述：一.概要：Map端分区排序合并Reduce端复制归并reduce 大概分为五个主要步骤二.架构图三.详解Map端分区 Partition首先，为了减少频繁IO的操作，先将数据写入到环形内存缓冲区中，默认大小为100MB，缓冲区中存在一个可设置的阙值（默认为0.8），当阙值达到0.8

2018-01-14 22:27:57 592

转载 YARN的内存和CPU配置

本文链接地址：http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.htmlHadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Conta

2018-01-14 17:52:26 221

原创 2018.1.10

1.创建文件哪几种命令touch vi echo ‘1’>>a.txt2.创建文件夹哪几种命令 mkdir -p4.查看文件大小的两种命令ll -h du -sh6.隐藏标识是什么. 7.查看隐藏的命令是什么 ll -a8.maven 使用时，会创建什么名称的隐藏文件，作为仓库.m29.进入到上一层目录的命令cd ..10.进入到上一次目录的命令cd -11.简述什么叫绝对路径和相对路径绝

2018-01-14 09:15:44 202

原创 2018.1.11

1.添加用户，删除用户的命令 useradd userdele2.添加用户组，删除用户组的命令 groupadd groupdel3.然后将一个用户的主组变更为另外一个组4.或者将一个用户添加到另外一个用户组5.添加完用户后，哪个文件会有一条记录 /user/passwd 6.su 切换一个用户时，发现切换不过去，是不是也要修改这个文件，那么该怎样修改?/bin/false7.su sudo

2018-01-12 21:16:23 150

原创 2018.1.12

1.MySQL的部署流程，默认配置文件在哪？/etc/my.conf2.MySQL的查看当前有哪些DB?show databases;3.切换到db1的命令use db1;4.查看当前db有哪些表?show tables;5.查看表的创建语句?show create table table_name;6.查看表的字段有哪些desc table_name;7.MySQL字符集，从服务端、客户端、DB端

2018-01-12 19:16:59 477

原创 Map join和Common join详解

利用hive进行join连接操作，相较于MR有两种执行方案，一种为common join，另一种为map join ，map join是相对于common join的一种优化，省去shullfe和reduce的过程，大大的降低的作业运行的时间。一.先决条件emp表hive> select * from emp;OK369 SMITH CLERK 7902 19

2018-01-12 13:59:46 14338

原创 shell脚本实现建表与数据导出

一. 基础知识hive -e：运行‘ ’内的查询语句hive -f：运行指定文件的内容（内容为sql语句）二.题目写个shell脚本，将本地TXT文档加载到hive中，然后查询这个表的数据到本地另外一个文件三. 数据 a.txthadoop:hadoop:/home/hadoop:>vi a.txt 369 SMITH CLERK 7902 1980-12-1

2018-01-11 15:57:04 1965

原创 2018.1.5练习

1.左表ID为1为三条，右表ID为1为10条数据，请问left join多少条? 30 2.hive中的数据分为两块，哪两块，分别存储在哪里 MySQL和HDFS 3.现在我们学的hive的执行引擎是什么？ MapReduce 4.文件格式有哪些?说说你们预习的5.压缩格式有哪些?说说你们预习的6.一般我们创建表默认是外部表吗？内部表7.外部表的语法是什么？ [EXT

2018-01-11 15:27:22 156

原创 Hive自定义函数提取网址信息

需求：我们需要实现自定义函数，来提取dns中的名字和对应的汉字。并将查询信息写入到另一张表一. 显示需求基础表 1 www.baidu.com 2 www.google.com 3 www.taobao.com最终结果 baidu 百度 google 谷歌 taobao 淘宝二. 首先我们需要用编写IDEA编写两个UDF函数，来得到两个字段的结果。编写实现

2018-01-11 14:42:29 732

原创静态分区表和动态分区表

在Hive中处理数据时，当处理的一张表的数据量过大的时候，每次查询都是遍历整张表，显然对于计算机来说，是负担比较重的。所以我们可不可以针对数据进行分类，查询时只遍历该分类中的数据，这样就能有效的解决问题。所以就会Hive在表的架构下，就会有分区的这个概念，就是为了满足此需求。静态分区表静态分区表的创建create table order_partition(number string,tim

2018-01-09 23:15:57 2571 1

原创 Hive DML语法

加载文件到表 LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]hive> load data local inpath "/home/hadoop/data/deptn.sql" overwrite into

2018-01-09 16:37:00 756

原创 Hive DDL语法

创建数据库语法：CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, …)];代码演示创建数据库，并查看hdfs文件系统情况，hiv

2018-01-09 13:34:41 181

原创 Hive内部表和外部表的区别

在了解内部表和外部表区别前，我们需要先了解一下hive的架构大家可以简单看一下这个架构图，我介绍其中要点：hive的数据分为两种，一种为普通数据，一种为元数据。元数据存储着表的基本信息，增删改查记录，类似于Hadoop架构中的namespace。普通数据就是表中的详细数据。hive的元数据默认存储在derby中，但大多数情况下存储在MySQL中。普通数据如架构图所示存储在hdfs中。下面

2018-01-08 23:43:40 1370

原创 2018.1.4练习

1.hive一般用来做什么数据仓库2.hive数据分为两块，请问分别是什么，分别存储在哪？元数据mysql；数据hdfs3.建表时，默认是外部表还是内部表? 内部表4.外部表是不是要指定一个地址？是5.drop外部表会删除数据吗不会6.默认换行符是什么 \n7.默认分隔符是什么？ \t8.换行和分割符语法是什么？假如不知道语法，知不知道在官网哪个地方去找呢？

2018-01-05 16:26:38 157

原创 MySQL字符集问题

在MySQL的表中插入中文字符的时候，就会发生一些错误，或者显示乱码插入之后显示的并不是中文字符，而是乱码。首先看一下我的MySQL的字符集设置mysql> show variables like '%character%' -> ;+--------------------------+----------------------------------+| Var

2018-01-05 15:43:35 267

原创 2018.1.3练习

1.MySQL的二进制部署，那么默认配置文件在哪？ my.cnf2.MySQL的登录命令是什么 mysql -u用户名 -p密码3.查看db的命令 show databases;4.查看哪些表的命令 show tables;5.查看表的创建语句 show create table XXX6.查看表的字段哪些的命令 desc table; -7.字段类型说说哪些 int

2018-01-03 14:47:21 160

原创 2018.1.1 练习

1.vi三种模式编辑、命令行、尾行2.跳转到最后一行的快捷键 G3.跳转到第一行的行首 gg4.跳转到行尾 $5.删除当前行 dd6.删除当前行及以下行 dGvi怎样覆盖内容的流程 >>8.强制保存退出 wq!9.查看文件内容哪些命令 cat、more、less10.文件大小哪两个命令查看 ll -h、du -sh11.文件夹大小 du -sh12.隐藏

2018-01-03 13:27:36 229

原创 HIVE-1.1.0-cdh5.7.0安装

环境说明Hadoop-2.6.0-cdh5.7.0JDK1.7MySQL5.6mysql-connector-java-5.1.45安装包下载及解压下载地址：http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压：tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz配置环境变量hado

2018-01-03 12:20:27 2144 1

原创 Hadoop-2.6.0-cdh5.7.0安装详解

下载Hadoop和JDK下载Hadoop地址：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk：注册甲骨文账号下载，推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software/jdk-7u80-linux-x64.tar.gz -C /usr/ja

2018-01-02 16:40:59 8090 3

weixin_39216383的博客