4月9号——毕设大概有头绪了

  认真学习的时间也就只有今天早上,效率还不错。把长春工业大学那篇论文看完了,对整个邮件系统过滤模型也有了比较具体的概念。

下面先归纳今天的收获。

  根据题目要求,加上各种分析得到,这次的毕设题目需要编写邮件客户端(具备接收和过滤功能),这样把题目的复杂度又提升了。

 

一.主要的工作:

 

   1. 邮件解码这部分功能可以利用Vmime中间件来实现,不过这方面值得借鉴的东西太少,只能研究Vmime中间件本身提供的说明书。说明书是英文的,大概需要花半天的时间看完。

 

   2.中文分词:需要借鉴已有的分词工具,但现在任没找到。

 

   3.特征选择:训练集(包含特征项,及一些统计量)上进行特征提取,运用CHI-Square方法进行特征选择,用词频信息作为权重。对于CHI-Square方法,还没有找到其运作方法。

 

   4.文本分类:

      1) 基于规则的过滤算法:对邮件头信息,IP地址的过滤以及标题的简单规则过滤。包括:黑白名单法,少许正则表达式法(即标题构词规则制定)。

      2) 基于统计的过滤算法:利用的是简单贝叶斯算法,以及基于最小风险考虑,这方面的算法已有粗略了解。

      

   5.自学习:这方面还有待了解。

 

 

二,明天的学习安排:

  1. 早上看完Vmime的说明书,并能运用其主要的功能。

  2. 下午配置Vmime环境,找自动分词工具。

  3. 晚上掌握运用CHI-Square进行特征选择的方法。

 

 

    身上的懒惰因子又慢慢浮现,千万不能向它屈服,加油哦!!

 

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值