机器学习算法

最新推荐文章于 2024-03-16 03:45:00 发布

Mr. xdc

最新推荐文章于 2024-03-16 03:45:00 发布

阅读量431

点赞数

文章标签：面试

本文链接：https://blog.csdn.net/qq_40632256/article/details/104854596

版权

文章目录

- 简单介绍机器学习
机器学习流程：数据获取、数据处理、特征工程、模型算法选择与调优、模型评估
数据获取与处理模块：pandas（数据获取与分析处理）、numpy（科学计算）、matplotlib（数据可视化绘图）

简单介绍机器学习

什么是机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

为什么要使用机器学习

通过机器学习算法可以简化那些现有解决方案中需要大量手动调整或者规则列表超长的问题的代码，并且提升执行表现。举例：垃圾邮件的过滤
解决传统技术手段无法解决的复杂问题。举例：语音识别问题
在环境不断变化的情况下适应新的数据。举例：处理各类垃圾邮件
从复杂问题和海里数据中发现数据间的关联性或者是新趋势。举例：啤酒加尿布的关联性

机器学习原理

原理：机器自主获取事物的规律。
要让机器可以 “学习”，必须将生活中的数据（包括但不限于图像、文字、语音）数值化，将不同事物的变化和关联转化为运算。
机器学习可以成立的原因是：概念和数值、关系和运算可以相互映射。

机器学习的分类

从机器学习的角度

监督学习（知道特征和标签）

线性回归（LinearRegression）：在特征和标签之间建立线性方程，计算每个特征的权重（weight）和最后的偏置（bias）
线性回归的损失函数：均方误差（MSE）
线性回归推广：广义线性回归（GLR）：如果这个函数是单调可微函数g(.)，即联系函数，例如标签Y不和特征X呈线性关系，但是ln(Y)与X呈线性关系，也可以采用线性回归方式
线性回归的正则化：分为L1正则化（Lasso）和L2正则化（Ridge），其中L2正则化更为常用

正则化：防止模型的过拟合
L1正则化是指权值向量 w 中各个元素的绝对值之和，
L2正则化是指权值向量 w 中各个元素的平方和，它对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量，使网络更倾向于使用所有输入特征，而不是严重依赖输入特征中某些小部分特征。 L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度
L1和L2正则化的项都有一个常数系数α来调节损失函数的均方差项和正则化项的权重

逻辑回归（LogistRegression）：是一种广义上的线性回归
逻辑回归与线性回归：线性回归的输出就是逻辑回归的输入，即在线性回归的基础上加入了激活函数sigmoid（对输入进行加权求和，作用一个函数）
支持向量机（Support Vector Machine）
决策树（Decison Tree）：可以认为是一些 if-else规则的集合 。决策树学习通常包括3个步骤： (1)特征选择。 (2)决策树生成。 (3)决策树剪枝。
特征选择的关键是：选取对训练数据有较强分类能力的特征。
如何进行特征选择，找到最高效的决策顺序：使用信息增益（ID3算法）或者信息增益比（C4.5算法）
信息熵公式(b=2)：

信息增益g(D, A)：集合D 的经验熵 H(D) 与关于特征 A 经验条件熵 H(D | A)之差。
信息增益比gR(D, A)：信息增益 g(D, A) 与关于特征 A 的熵 H(D) 之比：
信息增益比本质上是对信息增益乘以一个加权系数