大数据采集

最新推荐文章于 2024-07-26 09:40:31 发布

rrrrrryrr

最新推荐文章于 2024-07-26 09:40:31 发布

阅读量171

点赞数

文章标签： big data hive 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rrrrrryrr/article/details/121798251

版权

打开四台虚拟机开启集群

连接hadoop1数据库

导入三个sql

docker images 查看镜像

启动hive 创建库表create database data;

创建表的脚本（修改库名表名表字段）

修改配置文件log /datax/job

数据库密码和字段名

库名和hadoop1的网址192.168.174.10还有表名

Hadoop2的网址192.168.174.11

Path desc formatted order_status_log20200901;

分隔符变成，修改字段

执行命令：

hdfs haadmin -getServiceState nn1

hdfs haadmin -getServiceState nn2

看一下active状态的namenode是哪台服务器

defaultFS后面要配置的是active的namenode的ip地址

手动添加数据

python /root/datax/bin/datax.py /root/datax/job/log.json

自动化采集 cd /sh 创建date文本里面加入日期和log中日期保持一致

脚本（注意修改表名前缀）

创建分区表注意use库

create table order_status_log(id string,order_id string,order_status string,operate_time string) partitioned by (day string) row format delimited fields terminated by ',';

将三个hive表中的数据导入到分区表

导入01的数据到分区表中注意修改库名表名

sql：

hive> insert into table order_status_log partition(day="2020-09-01") select * from data.order_status_log20200901;

导入02的数据到分区表中

sql：

hive> insert into table order_status_log partition(day="2020-09-02") select * from data.order_status_log20200902;

导入03的数据到分区表中

sql：

hive> insert into table order_status_log partition(day="2020-09-03") select * from data.order_status_log20200903;

3）在mysql中创建一个表用来存储结果数据的

CREATE TABLE `month_count`(

`day` DATE,

`count` INT

)ENGINE=INNODB CHARSET=utf8;

4）写脚本

a）将9月的hive表中的数据一次性导入hive的分区

创建容器

docker run -itd --name=mysql-test -p 8888:3306 -e MYSQL_ROOT_PASSWORD=123456 1d7aba917169 /bin/bash

查看容器

docker ps –a

进入容器

docker exec -it mysql-test /bin/bash

开启MySQL服务

service mysql start

进入mysql

mysql -uroot –p

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

FLUSH PRIVILEGES;

连接sqlyog 注意修改端口号

执行脚本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据采集

打开四台虚拟机开启集群连接hadoop1数据库导入三个sqldocker images 查看镜像启动hive 创建库表create database data;创建表的脚本（修改库名表名表字段）修改配置文件log /datax/job数据库密码和字段名库名和hadoop1的网址192.168.174.10还有表名Hadoop2的网址192.168.174.11Path desc formatted order_status_log20200901;...
复制链接

扫一扫

rrrrrryrr CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

147万+: 周排名

220万+: 总排名

317: 访问

: 等级

20: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

最新评论

大数据采集脚本
CSDN-Ada助手: 非常感谢CSDN博主的分享，大数据采集脚本是一个非常重要的话题。我觉得下一篇博客可以就数据采集的数据清洗和处理方面展开，可以分享一些常用的数据清洗方法和技巧，以及如何使用Python等语言进行数据处理。这样的技术文章对其他用户一定非常有帮助。相信会有更多读者期待你的下一篇博客。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

大数据采集脚本

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。