大数据时代究竟改变了什么?

大数据究竟改变了什么?

  • 改变的是思维方式

  • 增加了数据重要性:数据资源—>数据资产(增值)

  • 改变了方法论:基于知识的理论完美主义—>基于数据的历史经验主义

  • 改变了数据分析: 统计学(抽样)—>数据科学(大数据);数据科学家(大数据+算法+丰富的业务知识)

  • 改变计算智能:复杂算法—>简单算法(MapReduce)

  • 改变决策方面:基于目标决策—>基于数据决策

  • 改变业务方面:基于业务的数据化—>数据主导业务

  • 产生竞争:以战略为中心——以数据为中心

大数据4V特征

  • 数据量大
    TB-PB-ZB
    HDFS分布式文件系统
  • 数据种类多
    结构化数据
    Mysql为主的存储和处理
    非结构化数据
    图像、音频
    HDFS、MR、Hive
    半结构化数据
    XML形式、HTML形式
    HDFS、MR、HIve、Spark
  • 速度快
    数据的增长速度快
    数据的处理速度快
  • 价值密度低

大数据项目架构—以电信日志分析为例

  • 以电信日志分析为例

  • 项目名称:电信日志分析系统

  • 项目描述:(做什么?数据来源?实现功能?数据量大小?)电信日志分析系统是以电信用户上网产生的数据进行分析和统计,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词检测、违规违法用户的处理等,整个项目的数据量在1T-20T左右,集群数量在10台-100台。

  • 项目架构分析:
    数据采集层:ftp/socket
    数据存储层:HDFS
    数据分析层:MR\HIVE\IMPALA\SPARK
    机器学习层:在大数据处理后的应用
    数据展示层:oracle+SSM

  • 项目职责:
    重点负责:实时or离线
    处理分析了那些字段,通过何种手段进行分析
    项目有没有优化

  • 项目优化:
    HDFS+SPARK一站式分析平台
    在这里插入图片描述

医疗案例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

机器学习-人工智能

人工智能的三次浪潮:跳棋:专家系统,象棋:统计模型,围棋:深度学习

人工智能的场景应用:图形识别-分类;无人驾驶;智能翻译;语音识别;医疗智能诊断;数据挖掘

人工智能、机器学习、深度学习概念区别

人工智能(暴力)>机器学习(加入算法)>深度学习(一种方法)

机器学习只是人工智能的一个分支,机器学习分支还有数据挖掘和模式识别

深度学习是机器学习的一种方法,是为了解决机器学习做不好的领域如图片识别

人工智能如何落地?–依靠机器学习

数据分析、数据挖掘、机器学习
数据:即观测值,测量值

信息:可信的数据

数据分析:数据–>信息

数据挖掘:信息–>到有价值的信息

模式识别:图像识别

机器学习

机器学习:从已有的经验中学习经验,从经验去分析。如判断收到邮件是否是垃圾邮件,自动标记facebook中的照片,考虑购物习惯推荐商品,预测汇率涨不涨,根据病症判断是哪类疾病

确定问题不是机器学习:计算每种箱子的个数

数值计算问题不是机器学习:计算一组数的平均值大小

判断方法:可以通过是否具有预测过程判断是否是机器学习

基于规则和基于模型
基于规则学习:专家发现规律制定规则,是采用硬编码方式进行学习

基于模型学习:通过数据构建机器学习模型,通过模型进行预测

X(自变量,定义域—>特征)----f(函数、映射---->模型)—>Y(因变量、值域—>结果)

最终目的是求解y=kx+b中的k和b
机器学习学习的是什么?学习的是模型。学习的是模型中的k和b,即模型参数

机器学习基本概念

在这里插入图片描述
数据集名称:鸢尾花数据集

  • 行:样本或实例
  • 列:特征
  • 特征或属性空间:由特征张成的空间……4个特征张成空间=》特征向量或属性向量:组成特征或属性空间的样本点
    =》特征或属性值:组成特征向量中的值
  • 将数据集切分成训练集和测试集
  • 使用训练集+算法构成模型解决实际问题
  • 误差:进行校验

非数值特征如何处理?

非数值特征需要通过labelcoder和onehotencoder转化为数值型变量,注意使用onehotencoder需要将维度扩大

序号 颜色 花瓣直径(cm) 分类
1 红 1.5 玫瑰
2 蓝 1.2 牵牛花
3 黄 1.3 牵牛花
labelencoder标签编码(红:0,蓝:1,黄:2)

序号 颜色 花瓣直径(cm) 分类
1 0 1.5 玫瑰
2 1 1.2 牵牛花
3 2 1.3 牵牛花
onehot encoder 独热编码(红:100,黄:010,蓝001)

序号 红 黄 蓝 花瓣直径(cm) 分类
1 1 0 0 1.5 玫瑰
2 0 0 1 1.2 牵牛花
3 0 1 0 1.3 牵牛花

如何对二分类问题进行评价?

在这里插入图片描述

  • 绝对值误差函数

  • 平方误差函数

  • 训练误差:关于训练集的平均损失

  • 测试误差:关于测试集的平均损失

  • 泛化误差:对新数据误差

  • 性能矩阵(混淆矩阵)

postive	           negativepostive      	PP	                  PNnegative	        NP	                     NN

  • Accuraccy 准确率=(PP+NN)/ALL

  • Precsition精确率=PP/(PP+NP)

  • Recall=Tpr 真正率或召回率=PP/(PP+PN)

  • Fpr假正率=NP/(NP+NN)

  • F1-Score精确率和召回率的调和平均数=2/(1/精确率 + 1/召回率)=2PP/(2PP+PN+NP)

  • ROC曲线的AUC指标

机器学习分类

  • 概念学习:关于布尔函数的学习方式

  • 有监督学习:有类别标签(根据是否包含预测分为回归;分类)

    • 分类:目标标记为类别型数据(邮件分类)

        决策树、KNN、SVM、Perception&&NeuralNetwork、Bayes、LogisticRegression
      
    • 回归:目标标记为连续性数值(房价预测)

        简单线性回归、多元线性回归、Lasso回归、Ridge回归、ElasticNet
      
  • 无监督学习:无类别标签

    • 聚类:通过特征之间的相似性

    • 降维:通过机器学习算法到达降维目的,区别于特征选择

  • 半监督学习:有的有标签,有的无标签

  • 主动学习(专家系统)

  • 纯半监督学习(预测新数据)/直推学习(预测无标签数据)

  • 强化学习:解决连续决策问题

  • 迁移学习:解决小数据集和个性化问题

机器学习三要素

机器学习模型=数据+算法+策略

机器学习模型:y=ax+b

策略:什么样的模型是好的模型

算法:如何找到最优的a和b

模型

决策函数:结果为类别标签 —— F={f|Y=f(X)}

条件概率分布:结果为概率模型 —— F={P|P(Y|X)}

策略

0-1损失函数:用于分类

在这里插入图片描述

平方损失函数:用于回归

在这里插入图片描述

绝对值损失函数:分类或回归

在这里插入图片描述

对数损失函数

在这里插入图片描述

模型选择-泛化性能体现

对于多个模型如何选择?

  • 模型的泛化能力

欠拟合:模型在训练集和测试集的效果都很差 60% 58%

过拟合:模型在训练集上的效果好,但在测试集上效果差 100% 40%

  • 欠拟合

欠拟合出现原因:模型过于简单

欠拟合出现场景:模型的训练初期

欠拟合解决办法:增加模型多项式项、增加模型多项式项的次数、减少正则罚项

  • 过拟合

过拟合出现原因:模型过于复杂、数据不纯、训练数量太少

过拟合出现场景:出现在模型训练的中后期

过拟合解决办法:针对模型过于复杂的–增加正则罚项、针对数据不纯的重新清洗数据、训练数据少的增加训练的数据量、对样本进行抽样或特征进行抽样、dropout随机丢弃一些点(深度学习)

奥卡姆剃刀原则:具有两个相同泛化误差的模型,较简单的模型比较复杂的更可取

过拟合 与模型选择

在这里插入图片描述

正则化

目的:简化模型
在这里插入图片描述

交叉验证

在机器学习中常用的精度测试方法,叫做交叉验证。它的目的是得到可靠稳定的模型,具体做法是拿出大部分数据进行建模,留小部分样本进行预测,并求出这些小部分样本中的预测误差,交叉验证在克服过拟合的问题上非常有效。

  • 简单交叉验证

       将数据集切分为:训练集和测试集=7:3  6:4  8:2
    
  • K则交叉验证

      将数据集平均随机切分成K等分,将其中一份数据作为测试集,其余数据作为训练集,训练K个模型,得到平均准确率
    
  • 留一验证

      特殊的K则交叉验证。每次只留一个样本作为测试集
    

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值