学习笔记-机器学习系统设计

最新推荐文章于 2018-11-10 14:31:33 发布

VIP文章 Dmoll

最新推荐文章于 2018-11-10 14:31:33 发布

阅读量341

点赞数

分类专栏： coursera机器学习笔记文章标签： coursera机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maryyu8873/article/details/77141463

版权

注：该博文为Coursera平台的machine learning 课程学习笔记。

如何构建一个垃圾邮件分类器

要构建一个机器学习模型，首先要确定模型的输入变量即特征变量。
邮件都是由一个个单词组成，而垃圾邮件里往往都包含一些共同的关键词，如buy, discount等。因此可以选择日常生活经常会用到的n个（1万到5万）单词，判断这些单词是否在邮件里出现。出现则用1表示，未出现则用0表示。这样就简单构建了模型的输入变量，模型的输出结果为：垃圾邮件（1），非垃圾邮件（0）。
这里写图片描述

那怎样去提高这个模型的预测性能呢？
- 收集更多训练样本；（但这不总是会有效）
- 设计更精致(sophisticated )的特征变量；
- 增加识别错拼的能力；
事实上很难说以上哪种策略会最有效果，进一步的策略是分析错误产生的原因。

解决一个机器学习问题的推荐步骤如下：
-从最简单的模型开始，快速部署并在验证集上完成测试；
-作学习曲线图，判断是需要更多的样本量，或者增加新的特征变量；
-错误分析，逐个

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记-机器学习系统设计

注：该博文为Coursera平台的machine learning 课程学习笔记。如何构建一个垃圾邮件分类器要构建一个机器学习模型，首先要确定模型的输入变量即特征变量。邮件都是由一个个单词组成，而垃圾邮件里往往都包含一些共同的关键词，如buy, discount等。因此可以选择日常生活经常会用到的n个（1万到5万）单词，判断这些单词是否在邮件里出现。出现则用1表示，未出现则用0表示。这样就简单构
复制链接

扫一扫

专栏目录

Dmoll CSDN认证博客专家 CSDN认证企业博客

码龄14年

35: 原创

14万+: 周排名

58万+: 总排名

16万+: 访问

: 等级

1111: 积分

30: 粉丝

40: 获赞

7: 评论

224: 收藏

私信

关注

热门文章

分类专栏

最新评论

概率密度函数的估计
lmw0320: 可否请教下，这里所谓的概率密度函数的参数，具体是哪些参数么？比如正态分布，其参数就是均值和方差？另外，这些样本数据获得后，我们如何判断其是属于正态分布，还是二项分布，还是其他什么分布呢？毕竟不同的分布，涉及到的参数还是不一样的吧?
学习笔记—诊断机器学习模型
程序猿一帆: 谢谢
利用R画置信椭圆
Dmoll 回复夏日无忧: 自己动动手，就明白了
利用R画置信椭圆
夏日无忧: 图中的黑点代表的是样本点吗？
简单理解t检验与秩和检验
心情无变化: Sx²前不是乘m–1吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。