Machine Learning in Action 读书笔记---第1章机器学习基础

最新推荐文章于 2022-02-02 22:45:30 发布

dongyuyuu

最新推荐文章于 2022-02-02 22:45:30 发布

阅读量290

点赞数

分类专栏：【机器学习】文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/id__39/article/details/118459026

版权

【机器学习】专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文是《Machine Learning in Action》的读书笔记，介绍了机器学习的基础知识，包括机器学习的定义、关键术语、主要任务、算法选择原则及开发步骤。文中提及了监督学习与无监督学习的应用，如k-近邻、朴素贝叶斯、支持向量机等，并强调了选择合适算法的重要性及数据预处理的必要性。

摘要由CSDN通过智能技术生成

Machine Learning in Action 读书笔记

第1章机器学习基础

文章目录

Machine Learning in Action 读书笔记
一、可谓机器学习？
二、机器学习关键术语
三、机器学习的主要任务
四、如何选择合适的算法
五、开发机器学习应用程序的步骤

一、可谓机器学习？

利用计算机来彰显数据背后的真实含义，这才是机器学习的真实含义。随着技术指数级增长，我们不仅需要使用更好的工具解析当前的数据，而且还要为将来可能产生的数据做好充分的准备。在社会科学领域，正确率达60%以上的分析被认为是非常成功的。

二、机器学习关键术语

知识表示：某些算法可以产生很容易理解的知识表示，而某些算法的知识表示也许只能为计算机所理解，采用何种方式表示只是就显得非常重要了。
聚类：在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程被成为聚类。
密度估计：在无监督学习中，将寻找描述数据统计值的过程成为密度估计。

三、机器学习的主要任务

（1）监督学习的用途：

k-近邻算法：线性回归
朴素贝叶斯算法：局部加权线性回归
支持向量机：Ridge回归
决策树：Lasso最小回归系数估计

（2）无监督学习的用途：

k-均值：最大期望算法
DBSCAN：Parzen窗设计

四、如何选择合适的算法

（1）考虑使用机器学习算法的目的

如果不想预测目标变量的值，则可以选择无监督学习算法。
进一步分析是否需要将数据划分为离散的组。
- 如果这是唯一的要求，则使用聚类算法；
- 如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法。

（2）充分了解数据

特征值是离散型变量还是连续型变量
特征值中是否存在缺失的值
何种原因造成缺失值
数据中是否存在异常值
某个特征发生的频率如何（是否罕见得如同海底捞针）

一般说来发现最好算法的关键环节是反复试错的迭代过程。

五、开发机器学习应用程序的步骤

收集数据
准备输入数据
分析输入数据（这一步的主要作用是确保数据集中没有垃圾数据）
训练算法（如果使用无监督学习算法，由于不存在目标变量值，故而也不需要训练算法）
测试算法（对于监督学习，必须已知用于评估算法的目标变量值；对于无监督学习，也必须用其他的评测手段来检测算法的成功率）
使用算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。