机器学习那些事

最新推荐文章于 2023-05-02 10:30:00 发布

沙滩捡贝壳的小男孩

最新推荐文章于 2023-05-02 10:30:00 发布

阅读量172

点赞数

分类专栏：机器学习原理文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014775977/article/details/89765570

版权

机器学习原理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

学习需要知识，机器学习不是魔术，它无法凭空变出东西，它所做的是由少变多，编程就像所有的工程技术那样，意味着大量的工作，必须从头开始建造一切。而机器学习更像种田，它让大自然做大部分工作，农名将种子与肥料混合种出庄稼。学习器（大自然）将知识（种子）和数据（肥料）结合"种出"程序。

学习 = 表示 + 评价 + 优化

大部分算法都是由这三部分组成

表示（Representation）

一个分类器必须用计算机可以处理的某种形式语言表示，选择某种特定的分类器集和，该集合被称作学习器的假设空间（hypothesis space）

评价（Evaluation）

我们需要一个评价函数来判断分类器的优劣，评价函数可包括机器学习算法内部使用的评价函数和分类器进行优化的外部评价函数

优化（Optimization）

我们需要一种搜索方法，能够在假设空间找到评价函数得分最优的那个分类器，初学者通常采用现成的优化方法，之后再用定制专门的优化方法来替代。
在这里插入图片描述

机器学习的常见问题

1.防止过拟合

泛化（generalization）很重要，常用的防止过拟合方法包括：

交叉验证
对评价函数增加正则项
卡方测试（决定是否增加新结构，看看类别分布是否因为增加这个结构而不同，当数据非常缺乏时，这项技术非常有用）

2.维度灾难

问题描述：许多在低纬空间表现很好的算法，当输入是高纬时，计算变得不可行，在机器学习领域，这有更多的意义。随着样例维度（特征数目）的增长，正确泛化的难度会以指数级增长，原因是同等规模的数据集只能覆盖越来越少的输入空间比例。更严格的讲，机器学习所（显示或隐示）依赖的基于相似度的推理在高维空间不再有效。

机器学习项目成功的保证

特征工程（Feature Engineering）是关键
更多的数据胜过更聪明的算法
要学习很多模型，而不仅仅是一个（模型融合）
简单并不意味着准确
可表示并不意味着可学习
相关并不意味着因果

----------以上内容参考论文 “A Few Useful Things to Know About Maching Learning”

沙滩捡贝壳的小男孩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

沙滩捡贝壳的小男孩 CSDN认证博客专家 CSDN认证企业博客

码龄10年

35: 原创

7万+: 周排名

5万+: 总排名

5万+: 访问

: 等级

809: 积分

31: 粉丝

43: 获赞

29: 评论

80: 收藏

私信

关注

热门文章

分类专栏

最新评论

快手大数据挑战赛---总结
沙滩捡贝壳的小男孩: 其它优秀选手的解题思路参考：https://www.heywhale.com/home/competition/forumlist/5ab8c36a8643e33f5138cba4
快手大数据挑战赛---总结
沙滩捡贝壳的小男孩: 正因为注册时间的不一致，所以注册时间是一个很好的特征点，数据预处理和特征处理得好，是可以应用机器学习的。（PS：现在暂时不搞数据挖掘了，有些知识点忘记了，这是目前我了解的，你参考参考）
漫谈递归：循环与迭代是一回事吗？
848698119: 到位，很赞的
快手大数据挑战赛---总结
kswlkswl_: 博主你好！用户的注册时间不一致，那么构造出的数据集会不会存在数据分布不一致的情况呢？这种情况下还可以使用机器学习算法吗
快手大数据挑战赛---总结
沙滩捡贝壳的小男孩: 复赛没有了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。