文章回顾
理论
实践
本地MAC环境配置
CPU数和内存大小
-
查看CPU数
sysctl machdep.cpu
# 核数为4
machdep.cpu.core_count: 4
# cpu数量为8个,使用了超线程技术:四核八线程
machdep.cpu.thread_count: 8
-
内存大小
top -l 1 | head -n 10 | grep PhysMem
PhysMem: 16G used (10G wired), 67M unused.
在本地开了3个虚拟机centos服务器
虚拟机服务器配置
服务器1 192.168.84.128 4核4G
服务器2 192.168.84.131 1核2G
服务器3 192.168.84.132 1核2G
因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来
虚拟机软件给一个虚拟机分配核数和内存的方式
![](https://imgkr2.cn-bj.ufileos.com/9b48f62c-1e45-47b5-aef7-d185b46e5278.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=Jq6QirYqJ5QvAxTiVQG0Hc2h%252BOI%253D&Expires=1610439192)
通过Sqoop查看Mysql数据库
/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456
![](https://imgkr2.cn-bj.ufileos.com/67e33b88-5c7a-4978-bcb1-3c3d14884512.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=GL1wPYxerBtlH5PX0yjBoZa5mis%253D&Expires=1610439223)
在Hive中创建测试表
创建test表
CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;
创建test_out表
CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
hive删除表
-
使用truncate仅可删除内部表数据,不可删除表结构
truncate table 表名
(truncate可删除所有的行,但是不能删除外部表)
-
使用shell命令删除外部表
hdfs -dfs -rm -r 外部表路径
-
使用 drop 可删除整个表
drop table 表名
查看hive表
-
查询hive所有表
hive -e "show databases ;" > databases.txt
cat databases.txt
default
-
指定default数据库
./hive -d default
在Mysql中创建测试表
-
创建test
DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
`id` int(10) DEFAULT NULL,
`uid` int(10) DEFAULT NULL,
`title` varchar(100) DEFAULT NULL,
`name` varchar(100) DEFAULT NULL,
`status` int(10) DEFAULT NULL,
`time` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
插入3条测试数据
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');
-
创建test_out
DROP TABLE IF EXISTS `test_out`;
CREATE TABLE `test_out` (
`name` varchar(100) DEFAULT NULL,
`count` int(10) DEFAULT NULL,
`time` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
Mysql导入Hive
/usr/local/sqoop/bin/sqoop import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database default \
--hive-table test \
--direct
![](https://static01.imgkr.com/temp/563913fd3eb24715ba2def2ee50a1eec.png)
虽然有报错
ERROR bonecp.BoneCP: Unable to start/stop JMX
java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")
但不影响导入结果
![](https://static01.imgkr.com/temp/25ede457ace148228b4f06fbd2406964.png)
-
查看hive表
![](https://imgkr2.cn-bj.ufileos.com/6e989ac2-2a21-4050-9550-9ddb1ea71c3b.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=C4laofgaWQgB1w82fKZCmGjxw8M%253D&Expires=1610440765)
说明从Mysql导入hive成功
增量数据定时导入
mysql test表增加一条测试数据
INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');
-
删除指定job
/usr/local/sqoop/bin/sqoop job --delete testJob
-
添加一个增量更新的job
/usr/local/sqoop/bin/sqoop job --create testJob -- \
import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--check-column time \
--incremental lastmodified \
--last-value '2018-08-09 15:30:29' \
--merge-key id \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--num-mappers 1 \
--target-dir /user/hive/warehouse/test
-
执行job
/usr/local/sqoop/bin/sqoop job --exec testJob
-
查看数据已被更新
![](https://imgkr2.cn-bj.ufileos.com/f2c56370-2fbc-467a-8d5a-5539a87e8d88.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=GHeCy2mey%252BEsTpAhRv4Qgp9S%252BEo%253D&Expires=1610441664)
-
查看job
/usr/local/sqoop/bin/sqoop job --show testJob
通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务
Hive导入Hive
cd /usr/local/hive/bin
hive
# 统计后将结果数据加入另一个表
INSERT INTO TABLE
test_out(name,count,time)
SELECT name,count(1),to_date(time)
FROM test
GROUP BY name,to_date(time);
# 或者
INSERT OVERWRITE
TABLE test_out
SELECT name,count(1),to_date(time)
FROM test
GROUP BY name,to_date(time);
![](https://imgkr2.cn-bj.ufileos.com/eaf3cf80-da35-4ab5-b73d-6b92be24834c.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=b95KEBgJ5GpDPfpK32U%252Fo281Xbg%253D&Expires=1610440994)
查看统计结果
![](https://imgkr2.cn-bj.ufileos.com/e1094245-78bc-4174-840f-1e959586cab2.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=hTAa7ykA4tgFHs35gfUjSlcsAf0%253D&Expires=1610442211)
统计成功
Hive导入Mysql
# hive的default库中的test_out表数据导出到mysql的test库test_out表
/usr/local/sqoop/bin/sqoop export \
--connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
--username root \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table test_out \
--hcatalog-database default \
--hcatalog-table test_out \
-m 1;
![](https://imgkr2.cn-bj.ufileos.com/ba33207f-1715-4f0b-8ea3-a6473a127641.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=nKtFksahs4hxvx50N8475X9gl2Y%253D&Expires=1610442736)
导出成功
![](https://imgkr2.cn-bj.ufileos.com/4c714478-3a5a-4d3d-b3d4-04fd3c28f19b.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=4tsnInKwlaDT2ySJiDZsthz%252FuQM%253D&Expires=1610442769)
可能遇到的问题及注意点
-
hive访问mysql数据库权限问题
服务器1上hive访问mysql如果报错
Access denied for user 'root'@'192.168.84.128' (using password: YES)
mysql需要授权访问者
GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;
flush privileges;
![](https://imgkr2.cn-bj.ufileos.com/6184a431-07ad-40e2-9731-2a4c3ff4d7bb.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=56PDJqrk5wqIzVIGlokZX0lwjRg%253D&Expires=1610442908)
-
在namenode上执行
报错:
RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby
原因:
服务器1是namenode节点 active 状态
服务器2是secondNamenode节点是 standby状态
执行命令要在active的namenode才可以
-
只有namenode才会有webui 50070端口
服务器1(192.168.84.128)上安装namenode 有50070端口
服务器2(192.168.84.131)上安装secondNamenode 有50070端口
服务器3(192.168.84.132)上没有安装namenode 没有
![](https://imgkr2.cn-bj.ufileos.com/c0dd846e-44d5-4b91-b539-dfd204f0ffad.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=MgA1Vtyte5ZyaOY4xlovcIHCi%252FA%253D&Expires=1610443846)
![](https://imgkr2.cn-bj.ufileos.com/ff77ed05-e432-43c2-985b-d9608a3169d7.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=sM5OovozzdW8bxv%252FmTRxpoQe9bo%253D&Expires=1610443862)
后记
接下来研究的方向:
1、hive运行原理
2、弄一笔数据走一下搭建好的大数据运行环境
3、10亿数据如何分库分表存储Mysql
4、10亿数据同步到hive
5、flink数据如何求交