Hadoop-2.6.0-cdh5.7.0安装详解

下载Hadoop和JDK 下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz 下载jdk:注册甲骨文账号下载,推荐1.7版本 安装JDK 解压jdk压缩包 tar -zxvf /home/...

2018-01-02 16:40:59

阅读数:2307

评论数:0

阶段总结

这两个月的时间,学习了MySQL和Hadoop还有Hadoop的一些组建包括hive和sqoop,遗憾的是没有接触到flume。收获很多,大体上在hive方面更加深入了一些。sqoop的那一堆参数也了解了一些,就算不会也可以百度,把想做的东西做出来。不过MapReduce的编程寸步未尽,嘿嘿嘿,下...

2018-01-30 13:53:37

阅读数:52

评论数:1

Hive执行计划详解

Hive的底层就是MapReduce的编程实现,我们可以通过执行计划详细的了解执行过程。对于我们对底层的理解,有很大的帮助。语法及结构官方对Hive Explain的英文解释,如果大家英文不错的话,强推: https://cwiki.apache.org/confluence/display/H...

2018-01-29 17:21:53

阅读数:123

评论数:0

sqoop增量导入

sqoop的增量导入分为多种模式,有append和lastmodified两种模式。需要应用的主要sqoop参数有:–check-column:指定增量导入的依赖字段,通常为自增的主键id或者时间戳–incremental:指定导入的模式(append或lastmodified)–last-val...

2018-01-28 14:35:55

阅读数:247

评论数:0

手动释放cache

释放内存cache,首先我们要查看一下使用情况 例如我的电脑: hadoop:root:/root:>free -m total used free shared buffers cached Mem: ...

2018-01-27 20:52:45

阅读数:36

评论数:0

Sqoop+Hive+MySQL用户某时间范围,区域最受欢迎的Top N的产品 中级版

写了两个脚本,一个处理了数据分析的一部分,一个处理了hive导回mysql,脚本刚开始接触,实在是不怎么样,大家对付看 处理数据分析 hadoop:hadoop:/home/hadoop/project:>vi makedata.sh #!/bin/bash newday=2016....

2018-01-27 16:57:52

阅读数:47

评论数:0

Sqoop+Hive+MySQL用户某时间范围,区域最受欢迎的Top N的产品 初级版

数据展示: 1.city_info mysql> select * from city_info; +---------+-----------+--------+ | city_id | city_name | area | +---------+-----------+--...

2018-01-25 15:23:50

阅读数:134

评论数:0

sqoop导出到mysql的字符集乱码问题

我将在HDFS中的文件导入到已将建好的MySQL表中。可是出现了如下问题: mysql> select * from endsql_table; +------+-----------+------+------+----------+ | area | pname | pnu...

2018-01-25 14:42:13

阅读数:344

评论数:0

swap分区详解

Linux内核为了提高读写与速度,将文件在内存中进行缓存,这就是Cache Memory(缓存内存)。CM在程序运行完并不会自动释放。所以在Linux程序频繁读写文件的时候,系统物理内存就会不足。当其不足的时候,必然要将内存释放,以供当前正在运行的程序使用。而被释放的程序就会被临时保存在swap空...

2018-01-24 17:46:10

阅读数:36

评论数:0

sqoop安装及驱动问题

sqoop 下载及解压 链接地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.7.0.tar.gz 解压:tar -zxvf sqoop-1.4.6-cdh5.7.0.tar.gz sqoop 添加环境变量 hadoop:ha...

2018-01-24 16:14:02

阅读数:120

评论数:0

YARN and MapReduce的【内存】优化配置详解

原文地址:http://blog.itpub.net/30089851/viewspace-2127850/ 转载: 在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。 使之专注于其擅长的数据处理任务, 将无需考虑资源调...

2018-01-24 15:39:22

阅读数:44

评论数:0

hive 调优概要

hive 优化 数据倾斜:join 优化宏观角度 架构:全局 分区表 合理利用中间结果集 SQL:执行计划 参数 自动转mapjoin 优化: 1. 列裁剪 分区裁剪 桶裁剪 ...

2018-01-23 22:54:55

阅读数:44

评论数:0

sqoop 参数

DBMS导入到hive表 sqoop import–connect jdbc:mysql://localhost:3306/wl 连接数据库,指定数据库 –username root 用户名 –password 123456 密码 –table table_name 指定表名 –hi...

2018-01-23 22:46:01

阅读数:105

评论数:0

2018.1.16

1.后台命令有哪些 & nohup screen2.screen创建会话 进入会话 退出会话 查看会话列表screen -S screen -r ctrl a d screen -list3.说说你们知道的压缩 解压命令和参数tar -zxvf unzip -xzvf un...

2018-01-17 13:34:40

阅读数:47

评论数:0

2018.1.15

1.查看当前目录的命令 pwd2.理解绝对路径和相对路径绝对路径 从根目录开始的路径 相对路径,从当前路径开始的路径3.切换到上一层目录cd ..4.切换到上一次命令cd -5.查看历史有哪些命令 history6.执行 第55行历史命令!557.想想新文件的产生有哪些命令可以实现touch...

2018-01-17 13:08:57

阅读数:41

评论数:0

MapReduce Shuffle详解

首先,我们先将MR Shuffle的整个流程进行简述: 一.概要: Map端 分区 排序 合并 Reduce端 复制 归并 reduce 大概分为五个主要步骤 二.架构图 三.详解 Map端 分区 Partition 首先,为了减少频繁IO的操作,先将数据写入到...

2018-01-14 22:27:57

阅读数:50

评论数:0

YARN的内存和CPU配置

本文链接地址:http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.html Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度...

2018-01-14 17:52:26

阅读数:40

评论数:0

2018.1.10

1.创建文件哪几种命令touch vi echo ‘1’>>a.txt2.创建文件夹哪几种命令 mkdir -p4.查看文件大小的两种命令ll -h du -sh6.隐藏标识是什么. 7.查看隐藏的命令是什么 ll -a8.maven 使用时,会创建什么名称的隐藏文件,作为仓...

2018-01-14 09:15:44

阅读数:83

评论数:0

2018.1.11

1.添加用户,删除用户的命令 useradd userdele2.添加用户组,删除用户组的命令 groupadd groupdel3.然后将一个用户的主组变更为另外一个组4.或者将一个用户添加到另外一个用户组5.添加完用户后,哪个文件会有一条记录 /user/passwd 6.su 切换一...

2018-01-12 21:16:23

阅读数:45

评论数:0

2018.1.12

1.MySQL的部署流程,默认配置文件在哪?/etc/my.conf2.MySQL的查看当前有哪些DB?show databases;3.切换到db1的命令use db1;4.查看当前db有哪些表?show tables;5.查看表的创建语句?show create table table_nam...

2018-01-12 19:16:59

阅读数:311

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭