大数据时代究竟改变了什么？

最新推荐文章于 2022-05-10 13:51:05 发布

�春风亲吻我像蛋蛋蛋挞。

最新推荐文章于 2022-05-10 13:51:05 发布

阅读量638

点赞数

本文链接：https://blog.csdn.net/dandandandanta/article/details/105206791

版权

文章目录

大数据究竟改变了什么？
大数据4V特征
大数据项目架构—以电信日志分析为例
- 医疗案例
机器学习-人工智能
人工智能、机器学习、深度学习概念区别
机器学习
机器学习基本概念
- 非数值特征如何处理？
- 如何对二分类问题进行评价？
机器学习分类
机器学习三要素
模型选择-泛化性能体现
过拟合与模型选择
正则化
交叉验证

大数据究竟改变了什么？

改变的是思维方式
增加了数据重要性：数据资源—>数据资产（增值）
改变了方法论：基于知识的理论完美主义—>基于数据的历史经验主义
改变了数据分析：统计学（抽样）—>数据科学（大数据）；数据科学家（大数据+算法+丰富的业务知识）
改变计算智能：复杂算法—>简单算法（MapReduce）
改变决策方面：基于目标决策—>基于数据决策
改变业务方面：基于业务的数据化—>数据主导业务
产生竞争：以战略为中心——以数据为中心

大数据4V特征

数据量大
TB-PB-ZB
HDFS分布式文件系统
数据种类多
结构化数据
Mysql为主的存储和处理
非结构化数据
图像、音频
HDFS、MR、Hive
半结构化数据
XML形式、HTML形式
HDFS、MR、HIve、Spark
速度快
数据的增长速度快
数据的处理速度快
价值密度低

大数据项目架构—以电信日志分析为例

以电信日志分析为例
项目名称：电信日志分析系统
项目描述：（做什么？数据来源？实现功能？数据量大小？）电信日志分析系统是以电信用户上网产生的数据进行分析和统计，数据主要来源于用户的上网产生的访问日志和安全日志，通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能，达到异常IP的检测、关键词检测、违规违法用户的处理等，整个项目的数据量在1T-20T左右，集群数量在10台-100台。
项目架构分析：
数据采集层:ftp/socket
数据存储层：HDFS
数据分析层：MR\HIVE\IMPALA\SPARK
机器学习层：在大数据处理后的应用
数据展示层：oracle+SSM
项目职责：
重点负责：实时or离线
处理分析了那些字段，通过何种手段进行分析
项目有没有优化
项目优化：
HDFS+SPARK一站式分析平台

医疗案例

在这里插入图片描述

机器学习-人工智能

人工智能的三次浪潮：跳棋：专家系统，象棋：统计模型，围棋：深度学习

人工智能的场景应用：图形识别-分类；无人驾驶；智能翻译；语音识别；医疗智能诊断；数据挖掘

人工智能、机器学习、深度学习概念区别

人工智能（暴力）>机器学习（加入算法）>深度学习（一种方法）

机器学习只是人工智能的一个分支，机器学习分支还有数据挖掘和模式识别

深度学习是机器学习的一种方法，是为了解决机器学习做不好的领域如图片识别

人工智能如何落地？–依靠机器学习

数据分析、数据挖掘、机器学习
数据：即观测值，测量值

信息：可信的数据

数据分析：数据–>信息

数据挖掘：信息–>到有价值的信息

模式识别：图像识别

机器学习

机器学习：从已有的经验中学习经验，从经验去分析。如判断收到邮件是否是垃圾邮件，自动标记facebook中的照片，考虑购物习惯推荐商品，预测汇率涨不涨，根据病症判断是哪类疾病

确定问题不是机器学习：计算每种箱子的个数

数值计算问题不是机器学习：计算一组数的平均值大小

判断方法：可以通过是否具有预测过程判断是否是机器学习

基于规则和基于模型
基于规则学习：专家发现规律制定规则，是采用硬编码方式进行学习

基于模型学习：通过数据构建机器学习模型，通过模型进行预测

X（自变量，定义域—>特征）----f（函数、映射---->模型）—>Y(因变量、值域—>结果）

最终目的是求解y=kx+b中的k和b
机器学习学习的是什么？学习的是模型。学习的是模型中的k和b，即模型参数

机器学习基本概念

在这里插入图片描述
数据集名称：鸢尾花数据集

行：样本或实例
列：特征
特征或属性空间：由特征张成的空间……4个特征张成空间=》特征向量或属性向量：组成特征或属性空间的样本点
=》特征或属性值：组成特征向量中的值
将数据集切分成训练集和测试集
使用训练集+算法构成模型解决实际问题
误差：进行校验

非数值特征如何处理？

非数值特征需要通过labelcoder和onehotencoder转化为数值型变量，注意使用onehotencoder需要将维度扩大

序号颜色花瓣直径（cm）分类
1 红 1.5 玫瑰
2 蓝 1.2 牵牛花
3 黄 1.3 牵牛花
labelencoder标签编码（红：0，蓝：1，黄：2）

序号颜色花瓣直径（cm）分类
1 0 1.5 玫瑰
2 1 1.2 牵牛花
3 2 1.3 牵牛花
onehot encoder 独热编码（红：100，黄：010，蓝001）

序号红黄蓝花瓣直径（cm）分类
1 1 0 0 1.5 玫瑰
2 0 0 1 1.2 牵牛花
3 0 1 0 1.3 牵牛花

如何对二分类问题进行评价？

在这里插入图片描述

绝对值误差函数
平方误差函数
训练误差：关于训练集的平均损失
测试误差：关于测试集的平均损失
泛化误差:对新数据误差
性能矩阵（混淆矩阵）

postive negativepostive PP PNnegative NP NN

Accuraccy 准确率=(PP+NN)/ALL
Precsition精确率=PP/(PP+NP)
Recall=Tpr 真正率或召回率=PP/(PP+PN)
Fpr假正率=NP/(NP+NN)
F1-Score精确率和召回率的调和平均数=2/(1/精确率 + 1/召回率)=2PP/(2PP+PN+NP)
ROC曲线的AUC指标

机器学习分类

概念学习：关于布尔函数的学习方式
有监督学习：有类别标签（根据是否包含预测分为回归；分类）
- 分类：目标标记为类别型数据（邮件分类）
```
  决策树、KNN、SVM、Perception&&NeuralNetwork、Bayes、LogisticRegression
```
- 回归：目标标记为连续性数值(房价预测)
```
  简单线性回归、多元线性回归、Lasso回归、Ridge回归、ElasticNet
```
无监督学习：无类别标签
- 聚类：通过特征之间的相似性
- 降维：通过机器学习算法到达降维目的，区别于特征选择
半监督学习：有的有标签，有的无标签
主动学习（专家系统）
纯半监督学习（预测新数据）/直推学习（预测无标签数据）
强化学习：解决连续决策问题
迁移学习：解决小数据集和个性化问题

机器学习三要素

机器学习模型=数据+算法+策略

机器学习模型：y=ax+b

策略：什么样的模型是好的模型

算法：如何找到最优的a和b

模型

决策函数：结果为类别标签 —— F={f|Y=f(X)}

条件概率分布：结果为概率模型 —— F={P|P(Y|X)}

策略

0-1损失函数：用于分类

在这里插入图片描述

平方损失函数：用于回归

在这里插入图片描述

绝对值损失函数：分类或回归

在这里插入图片描述

对数损失函数

在这里插入图片描述

模型选择-泛化性能体现

对于多个模型如何选择？

模型的泛化能力

欠拟合：模型在训练集和测试集的效果都很差 60% 58%

过拟合：模型在训练集上的效果好，但在测试集上效果差 100% 40%

欠拟合

欠拟合出现原因：模型过于简单

欠拟合出现场景：模型的训练初期

欠拟合解决办法：增加模型多项式项、增加模型多项式项的次数、减少正则罚项

过拟合

过拟合出现原因：模型过于复杂、数据不纯、训练数量太少

过拟合出现场景：出现在模型训练的中后期

过拟合解决办法：针对模型过于复杂的–增加正则罚项、针对数据不纯的重新清洗数据、训练数据少的增加训练的数据量、对样本进行抽样或特征进行抽样、dropout随机丢弃一些点（深度学习）

奥卡姆剃刀原则：具有两个相同泛化误差的模型，较简单的模型比较复杂的更可取

过拟合与模型选择

在这里插入图片描述

正则化

目的：简化模型
在这里插入图片描述

交叉验证

在机器学习中常用的精度测试方法，叫做交叉验证。它的目的是得到可靠稳定的模型，具体做法是拿出大部分数据进行建模，留小部分样本进行预测，并求出这些小部分样本中的预测误差，交叉验证在克服过拟合的问题上非常有效。

简单交叉验证

   将数据集切分为：训练集和测试集=7:3  6:4  8:2

K则交叉验证

  将数据集平均随机切分成K等分，将其中一份数据作为测试集，其余数据作为训练集，训练K个模型，得到平均准确率

留一验证

  特殊的K则交叉验证。每次只留一个样本作为测试集

在这里插入图片描述

�春风亲吻我像蛋蛋蛋挞。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据时代究竟改变了什么？

文章目录大数据究竟改变了什么？大数据4V特征大数据项目架构—以电信日志分析为例医疗案例机器学习-人工智能人工智能、机器学习、深度学习概念区别机器学习大数据究竟改变了什么？改变的是思维方式增加了数据重要性：数据资源—>数据资产（增值）改变了方法论：基于知识的理论完美主义—>基于数据的历史经验主义改变了数据分析：统计学（抽样）—>数据科学（大数据）；数据科...
复制链接

扫一扫