![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习理论
文章平均质量分 70
Julie Chia
这个作者很懒,什么都没留下…
展开
-
机器学习项目清单(1)
机器学习项目清单 机器学习项目清单最重要得是其中得思想,在工作中得应用虽然也很值得推广,但其思想更值得重视。 … 不过在《机器学习实战》Aurelien Geron 的书中,并没有讨论真实工作场景中管理在其中的作用。其原因大多是巨头互联网公司在机器学习项目组中,其管理者也都是技术人员,所以更多的精力会集中在机器学习本身的理论与实践结合后的指标提升中或者项目本身对业务的推动效用中,其创造性或者容错性更强。但一些互联网结合业务中的公司,因为更加重视业务性,所以在这方面的管理者容易是业务管理者,那这个问题将在业务原创 2021-01-08 17:51:30 · 203 阅读 · 0 评论 -
机器学习项目清单(5)
选择与训练模型 … … 对于模型本身的研究并不在这里面进行讨论。而训练模型的重要的思想是:在合理的时间训练有效的模型(数据集很大的话,需要采样为小数据集)、使用交叉验证进行筛选模型、查看分析每个算法最重要的变量、分析各个模型产生的错误类型,讨论手动怎么识别这样的错误、快速进行特征选择与处理;列出较为有效的2-5个模型并存储。 … … 在合理的时间训练有效的模型 在合理的时间是十分有必要进行说明与强调的,无论是理论研究还是工程思维,合理的时间都是科学方法之一。 训练模型过程中不需要进行模型本身的讨论,此原创 2021-01-14 19:47:25 · 113 阅读 · 0 评论 -
机器学习项目清单(3)
机器学习项目清单(3) … … 研究数据以获取灵感 … … 对数据的研究不需要额外再进行讨论,按照流水线般的数据研究工作就可以。大致包含部分:数据之前准备工作、数据探索准备工作、常用的几个分析方法、数据总结。然后这个工作需要因为对数据有可能进行补充,所以是一个需要循环的工作。 … 数据之前的准备工作 在之后的所有项目的甘特图当中,这个部分预先补充,进行操作。 创建数据副本 如果数据集很大,创建一个探索集(要注意分层抽样),如果数据集不大,可以采用副本直接进行分析。分析的工作确保数据具有一定的代原创 2021-01-12 18:51:50 · 108 阅读 · 1 评论 -
机器学习项目清单(2)
机器学习项目清单 2. 获取数据 Aurelien Geron 关于获取数据的清单如下 列出需要的数据及其体量 查找并记录获取数据的途径 检查需要的空间 检查法律义务,必要时获取授权 获取访问权限 创建工作空间(确保具有足够的存储空间) 获取数据 将数据转化为可操作的格式(不改变数据本身) 确保删除或保护敏感信息(例如、匿名) 检查数据的类型和大小(时间序列、样本、地点等) 采样一个测试数据集,放在一边,永远不要用它(没有数据窥视)。 … … 以上完整的记录了《机原创 2021-01-11 18:13:42 · 166 阅读 · 0 评论