nlp
文章平均质量分 77
sanfendi
这个作者很懒,什么都没留下…
展开
-
TF-IDF笔记
信息检索的历史发展过程中,出现了很多的模型,模型就是实际问题的抽象。如布尔模型、向量模型。布尔模型以集合的布尔运算为基础,查询效率高,但只能适用简单搜索问题,同时还要求用户要按照要求拼凑查询串,只能用于特定领域。向量模型把查询串和文档都是为词所构成的多维向量,查询与文档的相关性用向量间的夹角来表示。向量计算不适用于大规模数据。TF-IDF(Term Frequency Inverse原创 2014-02-27 19:49:03 · 2088 阅读 · 1 评论 -
中文分词算法之最大逆向匹配法
中文文本处理的首要问题是分词,最大匹配法有正向和逆向之分,分别是从一个句子的开头和结尾切词。比如这里有一句话:S = “我在学习语言学”。定义词最大的长度是:3,S1 = “”;分隔符:“\”;设现有词典Map存在如下词表:我、在、学习、语言学。最大匹配法的关键在于有完整的词典,但是,也会有歧义发生,例如上记的长度如果定位2,词典里有“语言”一词,分词结果将会不是期望的结果。下面用Ja原创 2014-02-28 09:17:06 · 2734 阅读 · 0 评论 -
基于朴素贝叶斯的垃圾邮件检测
package cn.zhf.test;import java.io.*;import java.util.*;public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail"; public static final String原创 2014-03-10 09:15:21 · 3855 阅读 · 2 评论 -
贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用
贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮件技术简单的介绍一、 贝叶斯反垃圾邮件技术介绍 贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。转载 2014-03-10 09:19:06 · 4756 阅读 · 0 评论