hands on machine learning with sklearn and tensorflow Chapter2.读书笔记（一）大局观

最新推荐文章于 2020-11-19 21:31:42 发布

seekermp4

最新推荐文章于 2020-11-19 21:31:42 发布

阅读量321

点赞数

分类专栏：机器学习读书笔记文章标签： machine learning sklearn 读书笔记

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

目录

（略）

1.尽量使用真实数据工作。

书中提供了一些网络中常见的真实数据，供大家练习。

作者最后选取了加利福尼亚1990年房价数据，为了方便教学，对特征做了一些增删。

数据集包含的每个街区的平均人口，平均收入，经度，纬度，包含的房间数，平均房屋价格等等。

2.大局观

做机器学习任务首先要建立大局观，而不是一上来闷头就做。书中这点就讲的很好，要结合boss的任务要求

安排详细的计划。

首先作者提出，作为有条理的数据科学家，应该列一份机器学系项目checklist，可以参考书中附录B并且根据自己的

需求进行相应增删。

（1）问题框架化

问题框架化是作者强调的大局观的一部分，在接到任务时首先应该问清楚boss任务的主题，目的。

所以第一个应该问老板的问题是：任务的主题是什么要解决什么？

我们的目的是为了解决该项任务而不是直接套模型，建立模型并不是任务的最终目标。应该考虑公司利用该模型期望获得什么，目标是什么。然后根据任务的主旨和目标：

1才能将问题框架化

2决定选用何种模型

3何种模型评判标准

4花多少精力去调整模型

如果团队的模型输出结果要喂到另一机器学习系统里，就要考虑pipeline的工作模式。

你所在系统组建接受上游流下来的数据，输出数据流入下一环节，并与其他因素一起喂入下一个模型，最终生成一整个机器学习系统。

所以pipeline在问题框架化中是很重要的。而且在机器学习系统中非常常见，在系统中，每个机器学习组建都可以分头运转，接受大量数据，并向数据储存区输出数据。然后，一段时间后，下一个机器学习系统就可以将这些上游数据接受，处理，并透入下一环节。系统中，每个块都是自给自足的，互相之间留下接口，不同组之间聚焦自己的工作，这样可以保证一个组建出现问题，系统还可以根据该组件的上一个版本正常运转。

将问题框架化就是要考虑：

1.机器学习系统如何组成运转，各部件之间的功能与配合。

2.每个部件的算法，算法的评价指标以及要花多少时间去调整模型。

第二个要问老板的问题是：现有的模型是什么样的？现有的模型达到了什么样的程度？使用了什么方法。

这将有助于你从各个角度更好地设计机器学习系统。

获得了以上信息后考虑：

使用监督学习，无监督学习，还是强化学习？是分类任务，回归任务还是其他？

使用批量学习还是在线学习技术？（tip：如果数据量巨大，应该将数据切分并在多个服务器上使用批量学习技术（可以使用mapreduce技术），或者使用在线学习技术）

（2）选择一个模型评估方法（书里只讲了针对线性回归的误差度量方法）

对回归问题来说，误差评估方法最典型的是均方根误差（RMSE L2范数），以及平均绝对误差（MAE，L1范数）

二者都是用以测量预测点与真实点之间的距离。

RMSE与MAE对比：RMSE相当于L2范数，MAE相当于L1范数。次数越高，计算结果就越与较大的值有关，而忽略较小的值，所以这就是为什么RMSE针对异常值更敏感的原因（即有一个预测值与真实值相差很大，那么RMSE就会很大）。如果奇异点几何级数稀少，RMSE表现更佳。

（3）最后，检查假设.

检查假设可以提前发现问题。例如，我们在预测房价的项目中，我们假设的输出结果是回归的数值结果，但是跟下一机器学习组件团队对接，发现需要“低”，“中”，“高”等等结果，那完全就没必要进行复杂的回归分析，而提前改变思路转换为分类问题。如果未做此类假设检查，整个项目会在后期运行中出现问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

seekermp4 CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

58万+: 周排名

231万+: 总排名

3万+: 访问

: 等级

251: 积分

4: 粉丝

5: 获赞

4: 评论

7: 收藏

私信

关注

热门文章

分类专栏

最新评论

懒人查看python源码方法
Deep Learning小舟: 学到了。（￣ˇ￣)
懒人查看python源码方法
BelieveOF: 假的吧，python2 、Python3都不行 Python 2.7.10 (default, Feb 22 2019, 21:55:15) [GCC 4.2.1 Compatible Apple LLVM 10.0.1 (clang-1001.0.37.14)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import module_name Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named module_name >>> 换Python3 Python 3.8.0a1 (default, Dec 19 2019, 17:31:42) [GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux Type "help", "copyright", "credits" or "license" for more information. >>> import module_name Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'module_name' >>> import module_name Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'module_name' >>>
Mac python3环境下对keras进行神经网络模型可视化
seekermp4 回复「已注销」: 客气欢迎交流
Mac python3环境下对keras进行神经网络模型可视化
「已注销」: 完美解决问题~多谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。