大数据_数据来源类型

最新推荐文章于 2024-06-29 10:20:16 发布

田江

最新推荐文章于 2024-06-29 10:20:16 发布

阅读量9.1k

点赞数 2

分类专栏：大数据文章标签：数据来源类型

本文链接：https://blog.csdn.net/jiang7701037/article/details/81605207

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

大数据分析首先要将杂乱排列的大数据进行处理，转换成简洁，高效，能让数据使用者一眼看懂的数据。所以就要将数据进行“抽取—转换—加载”(the Extract-Transform-Load，ETL)，这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来，然后进行清洁、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础

所以，对于大数据相关的工作来说，数据是基础；没有数据，一切都是浮云。没有数据，一切没有可能，没有数据，世界将会怎样……，世上只有数据好……，哈哈

这篇文档中给大家分享一下数据来源的类型：

1、文本类的数据：

1），txt：记事本，word文档等等，

2），csv：内容是以逗号和换行分割的文件。

如：

三国演义,罗贯中,50.1

水浒,施耐庵,50.2

红楼梦,曹雪芹,50.3

3），json格式（使用最多的格式）：

如：

json对象

{

"id":"195192617231330820"

"name":"霸王音乐小闹钟夜灯床头钟创意学生儿童懒人钟表时尚卧室静音台钟"

"price":39.00,

"color":"white",

"state":"交易成功",

"business":"金霸王家居专卖店"

}

json对象数组

[

{

"id":"195192617231330820"

"name":"霸王音乐小闹钟夜灯床头钟创意学生儿童懒人钟表时尚卧室静音台钟"

"price":39.00,

"color":"white",

"state":"交易成功",

"business":"金霸王家居专营店"

{

"id":"191316354870330820"

"name":"奥妙洗衣液薰衣草香持久留香整箱包邮促销组合家庭"

"price":39.90,

"color":"white",

"state":"交易成功",

"business":"金信居家日用专营店"

}

]

4）、xml格式：

<books>

<book>

</book>

<book>

</book>

<book>

<name>鲁宾逊漂流记</name>

</book>

</books>

2、结构化

每条数据都有固定的格式，而且必须是固定的格式。结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理，平时使用excel也是属于结构化数据：

如：

id	name	price	author	publish
1001	天龙八部	120	金庸	西安百越勤出版社
1002	平凡的世界	50	路遥	西安百越勤出版社
1003	狼图腾	39.8	姜戎	西安百越勤出版社