4月9号——毕设大概有头绪了

最新推荐文章于 2010-10-20 09:42:00 发布

tlovet1314

最新推荐文章于 2010-10-20 09:42:00 发布

阅读量1k

点赞数

分类专栏：个人日记文章标签：算法正则表达式中间件工具工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tlovet1314/article/details/5468497

版权

个人日记专栏收录该内容

36 篇文章 0 订阅

订阅专栏

认真学习的时间也就只有今天早上，效率还不错。把长春工业大学那篇论文看完了，对整个邮件系统过滤模型也有了比较具体的概念。

下面先归纳今天的收获。

根据题目要求，加上各种分析得到，这次的毕设题目需要编写邮件客户端（具备接收和过滤功能），这样把题目的复杂度又提升了。

一.主要的工作：

1. 邮件解码：这部分功能可以利用Vmime中间件来实现，不过这方面值得借鉴的东西太少，只能研究Vmime中间件本身提供的说明书。说明书是英文的，大概需要花半天的时间看完。

2.中文分词：需要借鉴已有的分词工具，但现在任没找到。

3.特征选择：在训练集（包含特征项，及一些统计量）上进行特征提取，运用CHI-Square方法进行特征选择，用词频信息作为权重。对于CHI-Square方法，还没有找到其运作方法。

4.文本分类：

1) 基于规则的过滤算法：对邮件头信息，IP地址的过滤以及标题的简单规则过滤。包括：黑白名单法，少许正则表达式法（即标题构词规则制定）。

2) 基于统计的过滤算法：利用的是简单贝叶斯算法，以及基于最小风险考虑，这方面的算法已有粗略了解。

5.自学习：这方面还有待了解。

二，明天的学习安排：

1. 早上看完Vmime的说明书，并能运用其主要的功能。

2. 下午配置Vmime环境，找自动分词工具。

3. 晚上掌握运用CHI-Square进行特征选择的方法。

身上的懒惰因子又慢慢浮现，千万不能向它屈服，加油哦！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tlovet1314 CSDN认证博客专家 CSDN认证企业博客

码龄15年

121: 原创

105万+: 周排名

86万+: 总排名

27万+: 访问

: 等级

4024: 积分

68: 粉丝

13: 获赞

56: 评论

38: 收藏

私信

关注

热门文章

分类专栏

最新评论

HDU1001
gooding300: 其实换long long就能用公式啦QAQ
数字图像处理编成入门——第二章图象的几何变换
C_to_OOP: 不行的原因是因为你电脑显示是32位的图像，所以用QQ截的图片也是32位的，但是你操作的BMP是24位，所以不行。
CTabCtrl在OnCreate函数操作时报错
ye阿布yte: WM_CREATE消息响应函数的时候，对话框及子控件还未创建完成，亦是说只是通知系统说要开始创建窗口了，这个消息响应完之后，对话框和子控件才开始创建。因此在此消息响应函数中无法对控件进行修改和初始化
数字图像处理编成入门笔记——第7章边沿检测与提取，轮廓跟踪
baidu_29067695: 讲的很详细，对我有用
数字图像处理编成入门笔记——第一章Windows位图和调色板
chuchuwentiniao: 看了你写的个人总结经验，我从内心里感谢你的分享。可否给我一份完整的电子书文档呢？我也想系统学习一下

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。