【机器学习】【Python】深入浅出Python机器学习-读书笔记整理

最新推荐文章于 2024-04-25 21:28:52 发布

_Evelyn_

最新推荐文章于 2024-04-25 21:28:52 发布

阅读量763

点赞数

分类专栏：读书笔记文章标签：机器学习算法 python 聚类神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dydy12232/article/details/105929854

版权

0 写在开头

趁着现在在家还没开学，把之前的笔记和记的一些东西整理一下。
资料：《深入浅出Python机器学习》
学习时间：2018.10

目录

0 写在开头
1 KNN
2 广义线性模型
3 朴素贝叶斯
- - 朴素贝叶斯算法的不同方法
4 决策树和随机森林
- - 决策树
  - 随机森林
5 支持向量机
6 神经网络
- - 多层感知器，MLP算法（前馈神经网络）
7 数据预处理、降维、特征提取及聚类
8 数据表达与特征工程
9 模型评估与优化
10 建立算法的管道模型
11 文本数据处理
12 数据获取与爬虫
13 本书总结

1 KNN

分类任务，多元分类任务，回归分析。
实战：酒的分类
核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。
实际存在问题：高维数据集拟合欠佳，对稀疏数据集束手无策，对规模超大的数据集拟合时间较长

2 广义线性模型

线性回归

也称为普通最小二乘法（OLS）。
找到训练数据集中的预测值和其真实值的平方差最小的时候，所对应的w和b。训练集的得分和测试集的得分存在巨大差异：出现过拟合。
数据量越大，线性回归模型越不容易产生过拟合现象。

岭回归

使用L2正则化的线性模型。（实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。）
保留所有的特征变量，但减小特征变量的系数值，让特征变量对预测结果的影响变小。——正则化
复杂度越低的模型，在训练数据集上表现越差，泛化能力越好。
提高alpha值，降低特征变量的系数，降低过拟合程度，模型限制更加严格，有助于泛化。alpha非常小时，和线性回归接近。

lasso回归（套索回归）

L1正则化
Lasso回归能够使得损失函数中的许多θ均变成0，这点要优于岭回归，因为岭回归是要所有的θ均存在的，这样计算量Lasso回归将远远小于岭回归。
alpha太低相当于去除了正则化效果

弹性网模型

综合了套索回归和岭回归的惩罚因子
选用原则：如果有很多特征，并不是每一个都对结果有重要的影响，则用L1正则化模型如lasso回归；特征不多且每一个都有重要的作用，用L2正则化，岭回归

其他线性模型

其他线性模型还有：逻辑斯谛回归，线性支持向量机（Linear

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】【Python】深入浅出Python机器学习-读书笔记整理

0 写在开头趁着现在在家还没开学，把之前的笔记和记的一些东西整理一下。资料：《深入浅出Python机器学习》学习时间：2018.10目录0 写在开头1 KNN2 广义线性模型线性回归岭回归lasso回归（套索回归）弹性网模型其他线性模型3 朴素贝叶斯朴素贝叶斯算法的不同方法4 决策树和随机森林决策树随机森林5 支持向量机6 神经网络多层感知器，MLP算法（前馈神经网络）7 数据预处理、降...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。