机器学习概述

1. 什么是机器学习?

机器学习是从数据中研究算法的学科。简单来说就是根据现有的数据,选择合适的算法来建立模型,来达到预测的目的。

从机器学习和人工智能的关系上来说的话,机器学习是人工智能的一个分支。在机器学习的过程中通过不断的利用训练数据集去训练模型,使得模型不断的优化,直到达到可以准确预测未来的状态。

 

2. 描述模型是否可以稳定的名词?

鲁棒性:也就是模型的稳定性,当有异常数据时也可以正常拟合。

过拟合:模型太符合样本数据的特征,但是在实际生产中又无法拟合

欠拟合:模型不太符合样本的特征

 

3. 机器学习的商业场景有哪些?

图像识别, 语音识别, 自然语言处理

个性化推荐, 精准营销, 客户细分,预测建模

 

4.  机器学习分类?

有监督学习:利用被标签化的训练集来建立模型,再用这个模型来预测未知的样本,并给这些样本打上标签。这里的训练集是被标签化的。有监督学习又分为判别式模型(关注数据的差异性,寻找分类面),例如:线性回归,决策树,支持向量机SVM,k近邻,神经网络;生成式模型(关注数据如何产生),例如:隐马尔可夫HMM,朴素贝叶斯模型,高斯混合模型GMM,LDA等;

无监督学习:与有监督学习相比,无监督学习的训练集是没有被标签化的,无监督学习训练出来的模型是为了寻找这些数据集的内在结构。一般作为有监督学习的前期数据处理,从原始数据中抽出必要的标签信息。

半监督学习:利用少量的标记样本和大量的无标记样本来训练模型

 

按实际用途分类:

分类:通过分类模型将训练数据集中的样本映射到给定的类别当中。

聚类:同过聚类模型将训练数据集中的样本分为几类,同类的样本更为相似

回归:通过函数表达训练数据集中样本属性的关系

关联规则:根据一个数据项的出现推导其他数据项出现的频率

 

5.  机器学习开发流程?

数据收集,数据预处理,特征处理,模型构建,模型测试评估,投入使用,迭代优化

 

6. 预处理的流程有哪些?

数据过滤,数据转换, 处理数据缺失, 处理可能的出现的异常错误或者异常值,合并多个数据源

 

7.  数据转换的方法有哪些?

a. 将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dumy
b. 从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)
c. 处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)
d. 数值数据转换为类别数据以减少变量的值,比如年龄分段
e. 对数值数据进行转换,比如对数转换
f. 对特征进行正则化、标准化,以保证同一模型的不同输入变量的值域相同
g. 对现有变量进行组合或转换以生成新特征,比如平均数 (做虚拟变量)不断尝试

 

8. 模型训练及测试?

在训练数据集上运行模型(算法)并在测试数据集中测试效果,迭代进行数据模型的修改,
这种方式被称为交叉验证(将数据分为训练集和测试集,使用训练集构建模型,并使用测
试集评估模型提供修改建议)


模型的测试一般以下几个方面来进行比较,分别是准确率/召回率/精准率/F值
准确率(Accuracy)=提取出的正确样本数/总样本数
召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率
精准率(Precision)=正确的正例样本数/预测为正例的样本数
F值=Precision*Recall*2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值)

 

9.  模型评估总结_分类算法评估方式

指标 描述 scikit-learn函数
Precision 精确度 from sklearn.metrics import precision_score
Recall 召回率 from sklearn.metrics import recall_score
F1 F1指标 from sklearn.metrics import f1_score
Confusion Matrix 混淆矩阵 from sklearn.metrics import confusion_matrix
ROC ROC曲线 from sklearn.metrics import roc
AUC ROC曲线下的面积 from sklearn.metrics import auc


10.  模型评估总结_回归算法评估方式

指标 描述 scikit-learn函数
Mean Square Error
(MSE, RMSE) 平均方差 from sklearn.metrics import mean_squared_error
Absolute Error
(MAE, RAE) 绝对误差 f mroemdiasnkl_eaabrsno.mluetetr_iecsrriomrport mean_absolute_error,
R-Squared R平方值 from sklearn.metrics import r2_score


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值