大数据分析首先要将杂乱排列的大数据进行处理,转换成简洁,高效,能让数据使用者一眼看懂的数据。所以就要将数据进行“抽取—转换—加载”(the Extract-Transform-Load,ETL),这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础
所以,对于大数据相关的工作来说,数据是基础;没有数据,一切都是浮云。没有数据,一切没有可能,没有数据,世界将会怎样……,世上只有数据好……,哈哈
这篇文档中给大家分享一下数据来源的类型:
1、文本类的数据:
1),txt:记事本,word文档等等,
2),csv:内容是以逗号和换行分割的文件。
如:
三国演义,罗贯中,50.1
水浒,施耐庵,50.2
红楼梦,曹雪芹,50.3
3),json格式(使用最多的格式):
如:
json对象
{
"id":"195192617231330820"
"name":"霸王音乐小闹钟夜灯床头钟创意学生儿童懒人钟表时尚卧室静音台钟"
"price":39.00,
"color":"white",
"state":"交易成功",
"business":"金霸王家居专卖店"
}
json对象数组
[
{
"id":"195192617231330820"
"name":"霸王音乐小闹钟夜灯床头钟创意学生儿童懒人钟表时尚卧室静音台钟"
"price":39.00,
"color":"white",
"state":"交易成功",
"business":"金霸王家居专营店"
},
{
"id":"191316354870330820"
"name":"奥妙洗衣液薰衣草香持久留香整箱包邮促销组合家庭"
"price":39.90,
"color":"white",
"state":"交易成功",
"business":"金信居家日用专营店"
}
]
4)、xml格式:
<books>
<book>
<id>01001</id>
<name>西游记</name>
<price>50.1</price>
</book>
<book>
<id>01002</id>
<name>西厢记</name>
<price>50.2</price>
</book>
<book>
<id>01003</id>
<name>鲁宾逊漂流记</name>
<price>35</price>
</book>
</books>
2、结构化
每条数据都有固定的格式,而且必须是固定的格式。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,平时使用excel也是属于结构化数据:
如:
id | name | price | author | publish |
1001 | 天龙八部 | 120 | 金庸 | 西安百越勤出版社 |
1002 | 平凡的世界 | 50 | 路遥 | 西安百越勤出版社 |
1003 | 狼图腾 | 39.8 | 姜戎 | 西安百越勤出版社 |
关于结构化的数据库,我们使用轻量,高效,移植方便的MySQL来给大家进行讲解。
结构化数据库也叫关系型数据库。数据库会利用约束来限制数据必须要遵守的结构,所以,结构化得以体现。(当然,您愿意用json来表示结构化的数据库,就需要人为去控制json中数据的结构(一般不会这么做,哈哈))
3、非结构化数据(把文本和结构化混合在一起)
不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。当把文本和结构化的数据混在一起时,就相当于没有结构了。
关于非结构化的数据库,我们使用比较流行的MongoDB(FaceBook,谷歌都在用噢)来讲解