认真学习的时间也就只有今天早上,效率还不错。把长春工业大学那篇论文看完了,对整个邮件系统过滤模型也有了比较具体的概念。
下面先归纳今天的收获。
根据题目要求,加上各种分析得到,这次的毕设题目需要编写邮件客户端(具备接收和过滤功能),这样把题目的复杂度又提升了。
一.主要的工作:
1. 邮件解码:这部分功能可以利用Vmime中间件来实现,不过这方面值得借鉴的东西太少,只能研究Vmime中间件本身提供的说明书。说明书是英文的,大概需要花半天的时间看完。
2.中文分词:需要借鉴已有的分词工具,但现在任没找到。
3.特征选择:在训练集(包含特征项,及一些统计量)上进行特征提取,运用CHI-Square方法进行特征选择,用词频信息作为权重。对于CHI-Square方法,还没有找到其运作方法。
4.文本分类:
1) 基于规则的过滤算法:对邮件头信息,IP地址的过滤以及标题的简单规则过滤。包括:黑白名单法,少许正则表达式法(即标题构词规则制定)。
2) 基于统计的过滤算法:利用的是简单贝叶斯算法,以及基于最小风险考虑,这方面的算法已有粗略了解。
5.自学习:这方面还有待了解。
二,明天的学习安排:
1. 早上看完Vmime的说明书,并能运用其主要的功能。
2. 下午配置Vmime环境,找自动分词工具。
3. 晚上掌握运用CHI-Square进行特征选择的方法。
身上的懒惰因子又慢慢浮现,千万不能向它屈服,加油哦!!