机器学习基础概念

机器学习(Machine Learning)

百度搜索 : 机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论多门学科。研究计算机怎样模拟、实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能 . 是人工智能的核心,使计算机具有智能的根本途径,应用遍及人工智能的各个领域,主要使用归纳、综合 .

 

什么是建模

建模是指利用模型学习已知结果的数据集中的变量特征,通过一系列方法提高模型的学习能力,最终对一些结果未知的数据集输出相应的结果.

可以表达成 y=f(x)  其中x代表样本的特征, y是输出的结果

 

机器学习方法

监督学习Supervised learning

监督学习两大问题: 分类classification、 回归regression

监督常见模型:

  1. 最近邻( KNN ):  适用于小型数据集 , 是很好的基准模型 , 容易解释 .
  2. 线性模型( Linear Regression ):  非常可靠的首选算法 , 适用于非常大的数据集 , 也适用于高维数据.
  3. 朴素贝叶斯( Naive Bayes ):   只适用于分类问题 , 比线性模型速度还快 , 适用于非常大的数据集和高维数据 , 精度通常要低于线性模型. 
  4. 决策树( Decision Tree ):  速度很快 , 不需要数据缩放 , 可以可视化 , 很容易解释 .
  5. 随机森林( Random Forest ):  几乎比单棵决策树的表现要好 , 鲁棒性很好 , 非常强大 , 不需要数据缩放 , 不适用于高维稀疏数据.
  6. 梯度提升决策树: 精度通常比随机森林略高. 与随机森林相比 , 训练速度更慢 , 但预测速度更快 , 需要的内存也更少 . 比随机森林需要更多的参数调节 . 
  7. 支持向量机( SVM ): 对于特征含义相似的中等大小的数据集很强大 , 需要数据缩放 , 对参数敏感 .
  8. 神经网络 : 可以构建非常复杂的模型 , 特别是对于大型数据集而言 , 对数据缩放敏感 , 对参数选取敏感 ,  大型网络需要很长的训练时间 . 

每个模型都有自己的优缺点, 复杂度也不一样, 设置正确的参数对于性能至关重要.输入数据的方式也很敏感,尤其是特征的缩放. 

无监督学习unsupervised learning

无监督学习: 数据集只给特征,不给标签,不需要人为标注给出语料答案.

无监督学习包括没有已知输出、没有知道学习算法的各类机器学习, 无监督学习中只有输入数据, 需要从这些数据中自己学习挖掘信息.

两种类型的无监督学习:数据集变换与聚类

经典的算法:k-聚类、主成分分析

半监督学习semi supervised learning

半监督学习介于监督学习和无监督学习两者之间,已知数据和部分数据对应标签,有一部分数据无标签.

模型学习已知标签和未知标签的数据 , 将输入数据映射到标签的过程 .

强化学习reinforcement learning

强化学习是一种学习模型 , 它不会直接给你解决方案 , 需要通过试错的方式去寻找 , AlphaGo就是用的强化学习 . 

 

数据集分类

训练集、验证集、测试集

训练集: 结果已知,用于模型训练拟合的数据样本, 占总体的70%~80%

验证集:结果已知,不参与模型训练的拟合过程, 用于验证已经训练过的模型效果.同时对模型中的超参数进行选择

测试集:结果未知,测试机器训练结果的准确性,或是利用模型输出结果的数据集

测试机与训练集最好独立分割,不可重复使用.

模型在真实数据上预测的结果误差越小越好。模型在真实环境中的误差叫做泛化误差最终的目的是希望训练好的模型泛化误差越低越好

 

评价指标TP/FP/FN/TN

  • True positive(TP): 真正例,将正例正确预测为正例数;
  • False positive(FP): 假正例,将负例错误预测为正例数;
  • False negative(FN):假负例,将正例错误预测为负例数;
  • True negative(TN): 真负例,将负例正确预测为负例数。

P/N代表预测值,如预测值与真实值一样,则是真x例,反之是假x例。

 

文字模型、图片模型、策略分析

文字模型:用于机器检测语料中的命中目标: 大多是文字、语句、关键词,多应用于对文字语料爬取信息等进行风险识别、黑词识别等

图片模型:用于机器检测图片中的命中目标: 也可对艺术字,变体字进行识别,或识别对图片中的敏感标志、人物、政治宗教、风险物品进行捕捉、定位、识别

策略分析:在明确策略应用场景, 通过验证策略命中数据是否正确,分析策略误杀数据的特征.给出优化方案

 

模型的泛化与拟合

泛化: 指机器学习算法对新鲜样本的适应能力。 学习目的是学到隐含在数据背后的规律,对具有同一规律的测试集以外的数据,经过训练也能给出合适的输出,该能力称为泛化能力。

即 : 经训练样本训练的模型需要对新样本做出合适的预测,这是泛化能力的体现

把模型训练的过程比作人类学习过程

欠拟合:泛化能力弱,新题老题不会做
       过拟合:泛化能力弱,遇到新题就懵逼
       不收敛:新题旧题全靠猜
       拟   合:学霸,新题旧题大概率都可做出来

 

 

 

模型的准确率、召回率、正确率

(二分类问题中的重要指标,其中语料同样本)

模型准确率:机器分类正确的正例样本 分类为正例样本总数中的比例 

分类为正例样本包括 : 真正例TP +  假正例FP(将负例判断成正例)

precision = TP/(TP+FP)   

 

模型召回率:机器分类正确的正例样本 占 真正正例样本总数的比例

真正正例样本总数包括: 真正例TP+ 假负例(将正类错误判断为负类数)

Recall  =   TP/(TP+FN)   

 

模型正确率:指机器分类判断正确的数量

accuracy  =   TP+TN /  (TP+FN+FP+TN)   

 

模型衰减与模型迭代

模型衰减:如随着时间的推移和线上素材的复杂性和多样性,机器训练模型的准确性会慢慢衰减.  其他应用场景暂不涉及

模型迭代:为了避免模型衰减带来应用效果结果不准确,通过定期的语料样本迭代,优化机器模型,保证模型应用效果

 

以上持续更新中 

 

 

 

 

 

 

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值