![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
「已注销」
爱思考,爱数学,爱博客。
展开
-
hive项目之微博ETL项目总结分析
微博ETL项目分析 一、数据格式 文件格式 Txt Csv’ Xls Doc 数据结构格式 Html格式,既是一个文件格式,也是一个数据结构格式 Json格式:kv对 Xml格式:一个根标签,和一堆子标签 二、输入和输出 输入: 房地产评论主题下的对应的用户基本信息文件集和评论内容文件集,两者之间是通过用户id关联的。 通过一定的java程序设计做数据解析、结构化、各自合并成一个文件即可方便loa...原创 2020-02-15 20:42:35 · 566 阅读 · 0 评论 -
hive概述和加载本地文件到数据库
一、数据仓库介绍 专业定义 英文名称为 Data Warehouse,可简写为DW 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流改进、监视时间、成本、质量以及控制。 通俗解释 面向分析的存储系统 一个面向主题的、集成的、不可修改的、反映历史变化的数据集合,用于数据分析、辅助管理决策。 ...原创 2020-02-08 22:42:36 · 307 阅读 · 0 评论