1. 大数据是什么
why:大数据时代
- 阿里提出"DT时代",未来将是数据推动发展的时代。
what:概念
- 大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
特点
- 4v特点:Volume、Velocity、Variety 和 Value 四个特征
- Volume:数据量大
- Velocity:表示大数据的数据产生、处理和分析的速度在持续加快
- Variety :数据种类繁多
- Value :数据价值密度降低,量多自然价值密度低。因为分母大了。
2. 大数据的作用
- 提供了一中看待世界的方法:决策行为将日益基于数据分析,而不是以前的经验
- 对大数据的处理分析正成为新一代信息技术融合应用的结点
- 大数据是信息产业持续高速增长的新引擎
- 大数据利用将成为提高核心竞争力的关键因素
- 大数据时代,科学研究的方法手段将发生重大改变
3. 数据时代的10个重大变化
个人理解
-
大数据时代确实让使得很多方面都可以基于数据来进行操作,其中对个人来说最突出的一点是,基于数据而做出的决策。在判断一件事情是否能做时,所基于的是大量数据验证而不是个人以及多人的经验所谈,这样让决策更加科学化,更加客观化。
-
数据对于企业来说是资产,个人收集整理,创造的数据对各人来说何尝不是资产呢?所以我们在这个大数据时代要做的就是整理出具有我们个性的数据,而不是泛滥的可以随意赋值的数据。通过我们的知识产出数据。
4. 大数据处理的基本流程
- 数据抽取与集成+数据分析+数据解释
- 在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户
4.1. 数据抽取与集成
4.1.1 为什么还要对数据源进行处理
-
因为数据量很庞大,数据也很杂,数据类型很繁多。对大量的数据并不是全部都是我们需要的,所以要在大量的数据中抽取出我们需要的,再按照一定的方式进行统一的存储。
-
说白了就是先筛选出我们要用的数据,把筛选的数据存储起来。
-
数据抽取的主要目的是将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。
4.1.2 数据抽取与集成方式(**以后慢慢了解这几种方式)
- 基于物化或 ETL 方法的引擎
- 基于联邦数据库或中间件方法的引擎
- 基于数据流方法的引擎,以及基于搜索引擎的方法
4.1.3 疑问
-
大数据时代数据模式和数据的关系?什么是数据模式呢?
-
数据抽取方式,如何使用这些抽取方式,需要使用哪些辅助软件呢?
-
数据进行清洗是什么?如何进行数据清洗?数据清洗为何能提高数据质量和可信性
4.2 数据分析
- 大数据价值产生于这个数据分析阶段,是大数据流程的核心步骤。
大数据时代的数据分析技术面临着一些新的挑战
-
数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多
-
大数据时代的算法需要进行调整
- 算法必须做出调整以适应分布式并发的计算框架,算法需要变得具有可扩展性。
- 将传统的线性数据分析算法调整成并发执行。
-
数据结果的衡量标准:因为数据量大,需要考虑的因素更多,就不像小数据那样容易制定评价标准。
4.3 数据解释
-
就是将数据分析得到的结果展示给用户,让用户明白这个结果。
-
结果必须要简洁直观,用户可没有专业的数据分析知识储备,可搞不清楚数据分析专业术语。
-
用可视化技术可以让结果更加简洁明了,也很直观。除此之外,也可以让用户参与到数据分析中来,用户亲身参与,这样更容易理解。
5. 大数据开发涉及到的关键技术有哪些?
-
所谓大数据所设计的技术是指:对大量数据进行处理分析所用到的技术
-
大数据关键技术涵盖数据存储、处理、应用等多方面的技术
-
根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。
5. 1 大数据采集技术
-
大数据的数据源主要有运营数据库、社交网络和感知设备 3 大类
-
数据包括 RFID 数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据
5.1.1 大数据采集方法分类
5.1.2 引子
-
大数据的采集过程的主要特点和挑战是并发数高。所以在采集端需要部署大量数据库才能对其支撑,并且,在这些数据库之间进行负载均衡和分片是需要深入的思考和设计的
-
大数据的处理模式:MapReduce 分布式并行处理模式或基于内存的流式处理模式(疑问,这是什么呢?)
5.1.3 针对 4 种不同的数据源,大数据采集方法有以下几大类
- 数据库采集
- 传统企业:MySql,oracle
- Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集
- 系统日志采集
- 主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用
- 高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构。
- 网络数据采集
- 指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。
- 收集的是非结构化或者半结构化数据。
- 感知设备数据采集
- 通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
5.1.4 疑问
- 负载均衡和分片是什么?我知道这个技术很有难度。
5.2 大数据预处理技术
- 通常数据预处理包含 3 个部分:数据清理、数据集成和变换及数据规约。
5.2.1 数据清理(**这一块都不懂,感觉挺高深的)
-
遗漏值处理
- 遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理。
-
噪音数据处理(什么是噪音数据处理,回归是机器学习的回归方法吗?)
- 噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音。
-
不一致数据处理
- 手动更改
5.2.2 数据集成和变换
-
数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。
-
这一过程中需要着重解决 3 个问题:模式匹配、数据冗余、数据值冲突检测与处理。
数据冗余
- 皮尔逊积矩来衡量数值属性,离散数据可以利用卡方检验来检测两个属性之间的关联。
- 疑问
- 皮尔逊积矩概念
- 卡方检验概念
数据值冲突
- 数据值冲突问题主要表现为,来源不同的统一实体具有不同的数据值。
- 数据变换的主要过程有平滑、聚集、数据泛化、规范化及属性构造等。
数据规约
- 数据规约主要包括数据方聚集、维规约、数据压缩、数值规约和概念分层等
5.3 大数据存储及管理技术
- GFS、MapReduce、BigTable技术
- 以 Hadoop 为代表的一系列大数据开源工具
5.4 大数据处理
- 批处理模式
- MapReduce 编程模型是最具代表性的批处理模式
MapReduce 的核心设计思想有两点。
- 将问题分而治之,把待处理的数据分成多个模块分别交给多个 Map 任务去并发处理。
- 把计算推到数据而不是把数据推到计算,从而有效地避免数据传输过程中产生的大量通信开销。
- 流处理模式
-
流处理模式的基本理念是,数据的价值会随着时间的流逝而不断减少
-
流处理模式更加注重时效性,就是优先处理新产生的数据
-
流处理场景:网页点击数的实时统计,传感器网络,金融中的高频交易等,就是实时处理
5.5 大数据分析及挖掘技术
-
大数据处理的核心就是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。
-
利用数据挖掘进行数据分析的常用方法主要有分类、回归分析、聚类、关联规则等,它们分别从不同的角度对数据进行挖掘
5.5.1 分类
- 分类是找岀数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,将数据库中的数据项映射到某个给定的类别。
5.5.2 回归分析
- 回归分析方法反映的是事务数据库中属性值在时间上的特征
5.5.3 聚类
- 聚类是把一组数据按照相似性和差异性分为几个类别。
- 其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小
5.5.4 关联规则
-
关联规则是描述数据库中数据项之间所存在的关系的规则
-
即根据一个事务中某些项的出现可推导岀另一些项在同一事务中也会出现,即隐藏在数据间的关联或相互关系。
5.6 大数据展示技术
- 可视化
要求
- 实时性
- 操作简单
- 更丰富的展现
- 多种数据集成支持方式