机器学习哪些事

最新推荐文章于 2023-03-10 16:30:29 发布

心觉潜意识

最新推荐文章于 2023-03-10 16:30:29 发布

阅读量213

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/mengenqing/article/details/88856015

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

1.机器学习可以根据训练时监督的量和类型分为四类：监督学习，非监督学习，半监督学习和强化学习

1.1监督学习：用来训练算法的训练数据包含了答案（即标签）
重要的监督学习算法：K近邻算法，线性回归，逻辑回归，支持向量机，决策树和随机森林，神经网络

1.2非监督学习：用来训练算法的训练数据没有包含标签的
重要的非监督学习算法：1.聚类（K均值，层次聚类分析-HCA;期望最大值）2.可视化和降维（主成分分析，核主成分分析，局部线性嵌入，t-分布邻域嵌入算法）3.关联性规则学习（Apriori算法，Eclat算法)

1.3半监督学习：部分数据带标签，通常是大量不带标签数据加上小部分带标签数据
多数半监督学习算法是非监督和监督算法结合。例如：深度信念网络是基于被称为互相叠加的受限玻尔曼机的非监督组件。RBM是先用非监督方法进行训练，再用监督学习方法进行微调

1.4强化学习：强化学习非常不同，它可以对环境进行观察，选择和执行动作，获得奖励

对于一个机器学习的问题，数据和特征决定了结果的上限，而模型和算法的选择与优化则是在逐步的逼近这个上限

面试问题：

1.数据归一化
数据归一化不是万能的，通过梯度下降法求解的模型需要归一化，包括Knn，Adaboost，线性回归，逻辑回归，支持向量机，神经网络，K均值聚类算法等；但概率模型（树形模型）不需要归一化，如决策树模型，随机森林（因为归一化不会改变信息增益）

2.类别型特征

类别型特征原始输入通常是字符串形式，除了决策树(但scikit-learn使用了CART算法的优化版本;它目前还不支持类别变量)等少数模型可以直接处理字符串输入外，对于逻辑回归，支持向量机等模型，必须转换成数值型特征才行。

编码的方法有三种：序号编码(Ordinal Encoding)，独热编码(One-hot Encoding),二进制编码(Binary Encoding)

在使用独热编码和二进制编码的时候需要结合特征选择来降低维度

3.组合特征处理

为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征；但是实际应用中，不是所有的组合能得到一个有效的组合特征，一个有效的方法寻找特征组合是：基于梯度提升决策树来寻找(该方法的思想是每次都在之前构建的决策树的残差上构建下一棵树)，每条从根节点到叶节点的路径都可以看成一种特征组合方式。

4.模型评估

评估指标：均方根误差（Root Mean Square Error，RMSE），一般情况，RMSE可以很好的反映回归模型的预测值与真实值的偏离程度，但是如果有离群点，即使非常少，也会让RMSE指标变得很差。针对这个问题，我们的解决方案是：第一，如果我们认定这些离群点是“噪声点”的话，需要在数据预处理的时候过滤掉，第二，如果不认为这些是离群点的话，就需要进一步提高模型的预测能力，将离群点产生的机制建模进去，第三，可以找一个更合适的指标来评估模型，比如平均绝对百分比误差（Mean Absolute Precent Error，MAPE）；相比RMSE，MAPE相当于把每个点的误差进行了归一化，降低了个别离群点带来的绝对误差的影响

4.1 ROC 曲线

心觉潜意识

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习哪些事

1.机器学习可以根据训练时监督的量和类型分为四类：监督学习，非监督学习，半监督学习和强化学习1.1监督学习：用来训练算法的训练数据包含了答案（即标签）重要的监督学习算法：K近邻算法，线性回归，逻辑回归，支持向量机，决策树和随机森林，神经网络1.2非监督学习：用来训练算法的训练数据没有包含标签的重要的非监督学习算法：1.聚类（K均值，层次聚类分析-HCA;期望最大值）2.可视化和降维（...
复制链接

扫一扫

专栏目录