第一章 什么是大数据
1.1 数据与大数据
百度百科中对数据的定义是:数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。
大数据:即海量数据,数据量特别大的数据。
大数据的特点:
(1) 数据量大:能达到TB、PB级别。(1TB = 1024GB,1PB = 1024TB)
(2)数据增长的速度快
(3)数据种类多:文字、图片、视频
(4)数据的价值密度低、整体的价值高
1.2 数据来源
数据来源大概包括两种:
(1)公司自己的业务数据 ,如电商的订单数据、日志数据等。
(2)通过网络爬虫爬取获得的数据
1.3 数据处理
由于获取的数据质量不同,在存储、分析这些数据之前,先要对数据进行处理。常用处理数据的手段如下:
(1)如何处理缺失的数据
不影响业务功能的数据,删除;但与钱相关的数据,不能轻易删除,需要自己补充。
(2)敏感数据
如:手机号,身份证号、银行卡号等。需通过加密算法进行脱敏处理。常用MD5等。
1.4 数据价值
可用于绘制人物画像:根据用户的综合数据,对用户进行全方位的分析。如:人脉、消费水平、性格等。