机器学习概念
机器学习的定义
ai(三大要素):算法、数据、算力
- 定义:是一门从数据中研究算法的科学学科
- 机器学习:根据已有数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测
- 是一个模拟人决策的过程的一种程序结构
基本概念
输入: x X
输出: y Y
获得一个目标函数 f: X->Y
输入数据:D={(xn, yn)}
最终具有最优性能的假设公示 g: X->Y(最终学习到的公式)
拟合:构建的算法模型符合给定数据的特征(过拟合、欠拟合)
鲁棒性:也饿就是健壮性、稳定性,强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据
常见框架
Scikit-learn:pip install scikit-learn(Python). http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Mahout(Hadoop)
SparkMLib(Java)

机器学习、数据分析、数据挖掘区别
-
数据分析:数据分析是指用适当的统计分析方法对收集的大量数据进行分析, 并提取有用的信息,以及形成结论,从而对数据进行详细的研究和概括过程。 在实际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为 统计分析、探索性数据分析和验证性数据分析三大类。
-
数据挖掘:一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。 通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。
-
机器学习:是数据分析和数据挖掘的一种比较常用、比较好的手段。
建模步骤
数据清洗、特征构造和特征选择、建立基础模型、调参、模型集成、模型评估
机器学习分类
• 通过分类模型,将样本数据集中的样本映射到某个给定的类别中(在模型构建之前,类别信息已经确定了。)
通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
• 反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
• 获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。
用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知 样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推 断出模型的机器学习任务。
判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,常见判别 模型有:Logistic回归、决策树、支持向量机SVM、k近邻、神经网络等;
生成式模型(Generative Model):对联合分布概率p(x,y)进行建模,常见生成式模 型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等; 生成式模型更普适;判别式模型更直接,目标性更强 生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注 的数据的差异性,寻找的是分类面
由生成式模型可以产生判别式模型,但是由判别式模式没法形成生成式模型。
与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据
并不被特别标识,学习模型是为了推断出数据的一些内在结构。
无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重 要的特征信息,常见的算法有聚类、降维、文本处理(特征抽取)等。
无监督学习一般是作为有监督学习的前期数据处理,功能是从原始数据中抽 取出必要的标签信息。
考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,是有监督学习和无监 督学习的结合
主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。 半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
• SSL的成立依赖于模型假设,主要分为三大类:平滑假设、聚类假设、流行假设; 其中流行假设更具有普片性。
• SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监 督降维。
• 缺点:抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未 来的发展主要是聚焦于新模型假设的产生。
本文介绍了机器学习的基本概念,包括算法、数据和算力的重要性,以及拟合和鲁棒性的概念。讨论了常见的机器学习框架如Scikit-learn、Mahout和SparkMLib,并区分了机器学习、数据分析和数据挖掘的区别。文章还详述了建模步骤和分类方法,如监督学习、无监督学习和半监督学习的原理及应用.

被折叠的 条评论
为什么被折叠?



