bigdata_ETL结构化项目

最新推荐文章于 2021-11-01 21:40:20 发布

JIE_ling8

最新推荐文章于 2021-11-01 21:40:20 发布

阅读量780

点赞数

分类专栏：总结文章标签： etl hive 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JIE_ling8/article/details/121057527

版权

总结专栏收录该内容

56 篇文章 1 订阅

订阅专栏

1.采集微博数据ETL项目：

数据输入与输出
- 输入（两个类别的文件集合）
  - 房地产评论主题下的对应的用户基本信息文件集和评论内容文件集，两者之间是通过用户id关联的。
  - 通过一定的Java程序设计做数据解析、结构化、各自合并成一个文件即可方便load到hive中。
- 输出（两张表，一个用户表，一个评论内容表）
  - 将两个类别下各自对应的文件集，进行解析、结构化。
  - 通过load语法，将数据分别导入到两张表当中。
思路：
- 通过javase+maven解决数据解析、结构化到一个文本文本的目标。
- 通过hive load语法将数据加载入数据仓库管理。
- 注意数据仓库的研发思路和开发步骤拆解，做到功能实现、目录清晰易懂。

1、基于定的微博数据目录，拿到该目录下所有的输入数据的文件路径。

2、基于文件路径，读取文本文件的数据。

3、解析读取出来的文件数据，成为结构化数据-微博博文对象抽象类-ContentPojo，最终获取对应的对象集合。

4、解析读取出来的文件数据，成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。

5、将两个抽象的对象集合，进行文本化数据落地，形成待load到hive的数据文件。

6、load两个类型的文件数据到hive的两张表当中。(提前创建两张表，均为外表)

7、测试数据及查询结果的准确性。

2. 常见的数据格式：

1.txt

2.html

3.xml（自定义标记标签）

4.Json

Key:value
也可以key:value的数组

3.仓库项目的标准开发流程：

以数据流来驱动项目开发！

4.四化建设：

复杂的问题简单化

简单的问题流程化

流程的问题自动化

自动的问题标准化

5.Java对应数据抽象的封装常用命习惯

model,数据模型的统一命名

entity,数据库与java对象进行交互时候的抽象

dto: data transfer object,数据传输对象

多用于web前后端传输数据对象时

pojo: java开发当中用于一般性、无数据库交互的对象的统称。

6.递归复习：

1、递归公式 fn=跟fn有关逻辑；

2、递归的终止条件fn=常数；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。