自己做的读书笔记,><
第一章大数据概述
一、大数据概念与价值
1.1 什么是大数据
- Gartner给出大数据定义:大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产。
- 著名管理咨询公司麦肯锡提出:大数据是指其大小超出了传统软件工具的采集、存储、管理和分析等能力的数据集,具有海量的数据(Volume),快速的数据处理(Velocity)、多样的数据类型(Variety)、低价值密度四大特征(Value),简称4V特征.
1.1.2大数据的来源
- 社交数据:在web1.0时代,内容生产是由网站运营者来主导的,进入web2.0时代,用户成为内容生产的主力,每个用户都可以在网络上生成大量数据。
- 机器数据:随着物联网发展而产生的各种数据。
1.1.3 大数据有什么价值
-
大数据已然上升到各个国家的战略规划中。是新时代的“石油”。
大数据给企业带来的好处:
- 提高营销能力:针对用户的个性化营销。
- 提高决策能力:可以实现更为准确的商业决策。
- 催生产品和服务。
- 改善产品和流程:企业可以针对性对产品迭代,使产品更贴合用户的需求。
1.1.4 如何挖掘企业大数据的价值
- 企业最有价值的数据主要有客户数据、财务数据和生产数据。
大数据价值的发现流程:- 数据采集:利用多种工具获取数据。
- 预处理及导入。
- 数据分析及挖掘。
二、大数据的关键技术
2.1大数据采集、预处理、和存储管理
- 大数据采集技术:通过web、应用、传感器等方式获得各种类型的结构化、半结构化及非结构化的数据,采集网络数据可以通过网络爬虫或API的方式获取。对系统管理员来说,系统日志对于管理有重要意义。
- 大数据预处理技术:包括对数据的抽取和清洗等方面。
- 大数据存储和管理技术。
2.2 大数据分析与挖掘
- 利用算法模型对数据进行处理,从而得到有用的信息。
- 常用的分布式计算框架:MapReduce适用于复杂的批量离线数据处理,Storm适用于流式数据的实时处理,spark基于内存计算具有多个组件
- 数据挖掘的任务:
- 偏差分析:识别异常数据记录、
- 关联分析:搜索变量之间的关系。
- 聚类分析:在数据中以某种方式或其他相似发现数据组和结构的任务,而不是用数据中的已知结构。
- 分类:将已知结构推广到新数据的任务,例如电子邮件尝试将邮件分为合法或者垃圾邮件。
- 回归:利用历史数据找出变化规律,结合自然语言处理,文本情感分析,机器学习。聚类关联、数据模型进行数据挖掘。
2.3 数据可视化
- 将数据以图象形式表示。
三、大数据产业
3.1 数据提供
- 数据交易在大数据产业中成为重要的一环,拥有大量数据的企业可以通过提供数据的方式来盈利。
3.2 技术提供
- 需要自建大数据平台的企业,IT厂商为其提供整体的解决方案,如华为的大数据解决方案。
- 中小企业可以将数据上传到第三方大数据平台进行处理,如Google的在线数据分析平台BigQuery。
3.3 服务提供
- 具有大数据以及数据分析能力的企业可以利用自身的数据分析结果开展新的业务对外提供服务。