机器学习与大数据基础知识(二)

目录

数据集

如何对二分类问题进行评价?

机器学习的步骤

机器学习分类

机器学习三要素

如何设计机器学习系统

模型选择-泛化性能体现

正则化 

交叉验证

库介绍


数据集

  • 数据集的行:样本

  • 数据集的列:特征

  • 特征组成的空间:特征或属性空间

  • 组成属性空间中的点:特征或属性向量

  • 将数据集切分成训练集和测试集,使用训练集+算法构成模型解决实际问题

非数值特征如何处理?

非数值特征需要通过labelcoder和onehotencoder转化为数值型变量,注意使用onehotencoder需要将维度扩大

序号颜色花瓣直径(cm)分类
11.5玫瑰
21.2牵牛花
31.3牵牛花
  • labelencoder标签编码(红:0,蓝:1,黄:2)

序号颜色花瓣直径(cm)分类
101.5玫瑰
211.2牵牛花
321.3牵牛花
  • onehot encoder 独热编码(红:100,黄:010,蓝001)

序号花瓣直径(cm)分类
11001.5玫瑰
20011.2牵牛花
30101.3牵牛花

如何对二分类问题进行评价?

  • 绝对值误差函数

  • 平方误差函数

  • 训练误差:关于训练集的平均损失

  • 测试误差:关于测试集的平均损失

  • 泛化误差:对新数据误差

        性能矩阵(混淆矩阵)

 postivenegative
postivePPPN
negativeNPNN

 

  • Accuraccy 准确率=(PP+NN)/ALL

  • Precsition精确率=PP/(PP+NP)

  • Recall=Tpr 真正率或召回率=PP/(PP+PN)

  • Fpr假正率=NP/(NP+NN)

  • F1-Score精确率和召回率的调和平均数=2/(1/精确率 + 1/召回率)=2PP/(2PP+PN+NP)

  • ROC曲线的AUC指标

 

机器学习的步骤

  1. 把数据拆分为训练集和测试集

  2. 用训练集和训练集的特征向量来训练算法

  3. 用学习来的算法运用在测试集上来评估算法

机器学习分类

概念学习:关于布尔函数的学习方式

有监督学习:有类别标签

  • 分类:目标标记为类别型数据

            决策树、KNN、SVM、Perception&&NeuralNetwork、Bayes、LogisticRegression

  • 回归:目标标记为连续性数值

            简单线性回归、多元线性回归、Lasso回归、Ridge回归、ElasticNet

无监督学习:无类别标签

  • 聚类:通过特征之间的相似性

  • 降维:通过机器学习算法到达降维目的,区别于特征选择

半监督学习:有的有标签,有的无标签

  • 主动学习(专家系统)

  • 纯半监督学习(预测新数据)/直推学习(预测无标签数据)

强化学习:解决连续决策问题
迁移学习:解决小数据集和个性化问题

 

机器学习三要素

机器学习模型=数据+算法+策略

  • 机器学习模型:y=ax+b

  • 策略:什么样的模型是好的模型

  • 算法:如何找到最优的a和b

模型

  • 决策函数:结果为类别标签 —— F={f|Y=f(X)}

  • 条件概率分布:结果为概率模型 —— F={P|P(Y|X)}

策略

  • 0-1损失函数:用于分类

  • 平方损失函数:用于回归

  • 绝对值损失函数:分类或回归

  • 对数损失函数

  • 指数损失

 

损失函数期望越小越好,但求解损失函数p(x,y)不容易求解。

从而提出了一系列概念。经验损失=平均损失--->当数据量足够大时,经验风险最小化=平均损失最小化--->结构风险:在经验风险的基础上增加正则罚项,使结构风险最小化。以下是一些详细概念

期望损失

经验损失/平均损失---->平均/经验损失最小化

 

结构风险-->结构风险最小化

 

  • 决策函数:损失函数就是平方损失

  • 条件概率:极大似然估计:经验损失=平均损失

  • 参考图示:随着模型的复杂度增加,模型在训练集上的误差越小,但是模型在测试集上的误差先减小然后增加,这里需要找到一个合适的点,该点需要模型具备很好的泛化能力,因此得到了结构风险最小化的点对应的就是求解最佳的点,该点对应的参数即为所求解参数

算法

  • 解析解---平常方法

  • 最优解---梯度下降放(最优解)、牛顿法

 

如何设计机器学习系统:

  • 首先明确:该问题是否是机器学习问题?--是;该问题是机器学习问题的哪方面?--监督学习,非监督学习

  • 当拿到数据之后从下面两个角度思考问题:从数据角度思考:根据具备的数据能够看出是监督学习还是无监督学习;从业务的角度思考:根据业务部门指定的业务方向

特征工程

  • 对特征处理

  • 对数据处理

 

模型选择-泛化性能体现

对于多个模型如何选择?

模型的泛化能力

  • 欠拟合:模型在训练集和测试集的效果都很差 60% 58%

  • 过拟合:模型在训练集上的效果好,但在测试集上效果差 100% 40%

欠拟合

  • 欠拟合出现原因:模型过于简单

  • 欠拟合出现场景:模型的训练初期

  • 欠拟合解决办法:增加模型多项式项、增加模型多项式项的次数、减少正则罚项

过拟合

  • 过拟合出现原因:模型过于复杂、数据不纯、训练数量太少

  • 过拟合出现场景:出现在模型训练的中后期

  • 过拟合解决办法:针对模型过于复杂的--增加正则罚项、针对数据不纯的重新清洗数据、训练数据少的增加训练的数据量、对样本进行抽样或特征进行抽样、dropout随机丢弃一些点(深度学习)

奥卡姆剃刀原则:具有两个相同泛化误差的模型,较简单的模型比较复杂的更可取

 

正则化 

  • 目的:为了降低模型的复杂度

  • L1正则=损失函数后加上λ|ω|

  • L2正则=损失函数后加上λ|ω|**2

交叉验证

在机器学习中常用的精度测试方法,叫做交叉验证。它的目的是得到可靠稳定的模型,具体做法是拿出大部分数据进行建模,留小部分样本进行预测,并求出这些小部分样本中的预测误差,交叉验证在克服过拟合的问题上非常有效。

  • 简单交叉验证

         将数据集切分为:训练集和测试集=7:3  6:4  8:2

  • K则交叉验证

        将数据集平均随机切分成K等分,将其中一份数据作为测试集,其余数据作为训练集,训练K个模型,得到平均准确率

  • 留一验证

        特殊的K则交叉验证。每次只留一个样本作为测试集

 

库介绍

  • 基于Python的sklearn库

  • 基于spark的mllib库

  • 基于spark的sparkR库

  • 基于Java的Weka库

深度学习库

  • 基于java的dl4j库

  • 基于python的tensorflow

  • 基于tensorflow之上的pytorch、keras等

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据基础知识入门 社会保障事业部 张火磊 主要内容 大数据价值 03 大数据概念、特性、由来 01 大数据应用举例 04 02 Hadoop技术介绍 大数据概念、特性、由来 什么叫大数据? 麦肯锡全球研究所给出的定义是:一 种规模大到在获取、存储、管理、分 析方面大大超出了传统数据库软件工 具能力范围的数据集合,具有海量的 数据规模、快速的数据流转、多样的 数据类型和价值密度低四大特征。 大数据的特性 大量(Volume) 多样(Variety) 快速(Velocity) 价值(Value) 大数据技术的由来 自 2002 年 数 字 时 代 开 启 以 来,数据呈现海量增长趋势(如图 所示)。特别是在2004年社交媒体 产生后,数据更是呈现爆炸性增 长趋势. 随着数据的增长,尤其数据 达到PB级以后,数据的存储和分 析都会变得非常困难。 2003-2006年,Google提出了三大关键技术来解决大规模数据的存 储和处理: GFS、MapReduce、BigTable并称Google大数据的三驾马 车。虽然Google没有公布这三个产品的源码,但是他发布了这三个 产品的详细设计论文,奠定了风靡全球的大数据基础! Hadoop之父Doug Cutting 受此启发的Doug Cutting等人用2 年的业余时间实现了GFS和MapReduce机制。 2005年,Hadoop作为Lucene的子项目Nutch 的一部分正式引入Apache基金会。2006年2 月被分离出来,成为一套完整独立的软件, 起名为Hadoop。 Hadoop的起源 总结起来,Hadoop起源于Google的三大论文 GFS—->HDFS Google MapReduce—->Hadoop MapReduce BigTable—->HBase Hadoop技术介绍 Hadoop的架构 Cloudera Manger Ambari 和 Cloudera Manger都是基于Web的工具,支持 Apache Hadoop集群的供应、管理 和 监 控 。 支 持 大 多 数 Hadoop 组 件 , 包 括 HDFS 、 MapReduce 、 Spark 、 Hive 、 Pig 、 Hbase 、 Zookeper、Sqoop等 大数据集群管理方式 分 为 手 工 方 式 ( Apache hadoop)和工具方式(Ambari + hdp 和 Cloudera Manger + CDH) HDFS HDFS ( Hadoop Distributed File System ) 是 Hadoop项目的核心组件之一,是分布式计算中数据存储 管理的基础,是基于流数据模式访问和处理超大文件的 需求而开发的,可以运行于廉价的商用服务器上。它所 具有的高容错、高可靠性、高可扩展性、高吞吐率等特 征为海量数据提供了不怕故障的存储,为超大数据集的 应用处理带来了很多便利。主要包含NameNode(用来管理 文件系统的命名空间)和DataNode(文件系统中真正存储 数据的地方) MapReduce MapReduce是一个高性能的批处理分布式 计算框架,用于对海量数据进行并行分析和处 理。MapReduce采用"分而治之"的思想,把对大 规模数据集的操作,分发给一个主节点管理下 的各个分节点共同完成,然后通过整合各个节 点的中间结果,得到最终结果。简单地说, MapReduce就是"任务的分解与结果的汇总"。 举例:如果想统计下过去10年计算机论文出现 最多的几个单词 传统方法:首先写一个遍历论文的程序,部署 到N台机器上去,然后把论文集分成N份,一台 机器跑一个作业。这个方法从理论上可以实 现,但是部署起来很麻烦,我们要人工把程序 copy到别的机器,要人工把论文集分开,最后 还要把N个运行结果进行整合。 Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题。 Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数 据集操作类型,编程模型比Hadoop MapReduce更灵活。 Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制,因此 Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 优点: 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell 进行交互式编程 通用性:Spark提供了完整而强大的技术
大数据基础知识 电信云@大数据产品线 大数据基础知识培训全文共22页,当前为第1页。 目录 大数据定义 大数据价值 大数据产业链 大数据基础知识培训全文共22页,当前为第2页。 1. 大数据定义 共识, 全球数据量每年 +50% 的速度指数递增 工业、生产数据远大于我们 现在关注的消费数据 大量即时数据在价值未流失之前等待处理 大数据营销, 根据企业数据需要组织挖掘分析,并基于IT系统实时把分析提供给需要决策帮助的内部企业成员。 互联网统计 大数据是一个服务行业。 大数据是传统统计与互联网相结合的行业。 大数据基础知识培训全文共22页,当前为第3页。 1. 大数据定义 大数据定义: 所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 主要的特点: Volume 数据体量 Velocity 数据速度 Variety 数据多样 Veracity 数据真实 大数据基础知识培训全文共22页,当前为第4页。 2. 大数据价值 在阐述大数据价值时,先一起先学习下 数据价值 数据 < 信息 < 知识 < 智慧 数据是约定俗成的数值量化,对客观事物的数量、熟悉、位置及其相互关系进行抽象表示, 以适合在这个领域中用人工或自然的方式进行保存、传递和处理。 大数据基础知识培训全文共22页,当前为第5页。 2. 大数据价值 数据价值 数据 < 信息 < 知识 < 智慧 信息是在时效内的一定含义的, 经过加工处理对决策有价值的数据流。 大数据基础知识培训全文共22页,当前为第6页。 2. 大数据价值 数据价值 数据 < 信息 < 知识 < 智慧 通过人们的参与对信息进行归纳、演绎、 比较等手段进行挖掘, 使其有价值的部分沉淀下来, 并于已存在的人类知识体系相结合, 这部分有价值的信息就转变成知识大数据基础知识培训全文共22页,当前为第7页。 2. 大数据价值 数据价值 数据 < 信息 < 知识 < 智慧 智慧是人类基于已有的知识, 针对物质世界运动过程中产生的问题根据获得的信息尽行分析,对比,演绎找出解决方案的能力。 智慧乃以知识为根基,加上的运用能力、综合判断、创造力及实践能力来创造价值。 大数据基础知识培训全文共22页,当前为第8页。 2. 大数据价值 数据价值 数据 < 信息 < 知识 < 智慧 智慧是人类基于已有的知识, 针对物质世界运动过程中产生的问题根据获得的信息尽行分析,对比,演绎找出解决方案的能力。 智慧乃以知识为根基,加上的运用能力、综合判断、创造力及实践能力来创造价值。 大数据基础知识培训全文共22页,当前为第9页。 2. 大数据价值 在此大数据作为服务工具,是数据分析能力的表现 对大数据分析,主要分为五个方面(提供大数据解决方案时的价值输出载体): 可视化分析(Analytic Visualization) 数据挖掘算法(Date Mining Algorithms) 预测性分析能力(Predictive Analytic Capabilities) 语义引擎(Semantic Engines) 数据质量管理(Data Quality Management) 大数据基础知识培训全文共22页,当前为第10页。 2. 大数据价值 可视化分析(Analytic Visualization) 大数据基础知识培训全文共22页,当前为第11页。 2. 大数据价值 数据挖掘算法(Date Mining Algorithms) 数据挖掘算法是大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信息。 著名的"啤酒和尿布"的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联系,提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。 大数据基础知识培训全文共22页,当前为第12页。 2. 大数据价值 语义引擎(Semantic Engines) 语义引擎是机器学习的成果之一。过去,计算机对用户输入内容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户输入内容的意思,从而把握住用户的需求,提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。 大数据基础知识培训全文共22页,当前为第13页。 2. 大数据价值 大数据解决方案在企业知识管理项目上的价值点: 1. 提供专业团队(数据建模、挖掘技术)与客户(行业专家)进行企业数据价值勘探。 2. 提供统一可扩

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值