NLP
STILLxjy
不要让任何人打乱你生活的节奏
展开
-
[NLP] 动手实现邮件分类算法
数据集获取:sms.tsvCSDN:https://download.csdn.net/download/stillxjy/11168492Github: https://github.com/jalajthanaki/NLPython/blob/master/ch8/Spamflteringapplication/data/sms.tsv代码实现细节分析:(1)导入包import pa...原创 2019-05-09 14:02:08 · 127491 阅读 · 0 评论 -
[实战] 朴素贝叶斯分类器进行文档分类
贝叶斯准则:贝叶斯准则告诉我们:如何交换条件概率中的条件和结果,即如果已知P(x|c),要求P(c|x):朴素贝叶斯有两个假设:1:特征之间相互独立2:每个特征同等重要对于一个文档分类问题,已知文档x,要求x属于类别c的概率P(c|x)在训练数据集中,我们可以很方便的求出类别为c的文档的概率P( c)= 类别为c的文档数/文档总数而在类别为c的文档中,特征为x的概率P(x|c)=...原创 2019-05-15 19:01:19 · 770 阅读 · 0 评论 -
[实战] 朴素贝叶斯分类器进行垃圾邮件过滤
我们已经讲解过朴素贝叶斯分类器的基本原理和实现:动手实现朴素贝叶斯分类器进行文档分类在此基础上,我们实现垃圾邮件的过滤,数据为50封txt邮件(1)将text文本文件,分成单词列表使用正则表达式,使用除单词和数字外的任意字符串为分隔符并删除长度小于3的字符串def textParse(bigString): import re listOfTokens = re.spli...原创 2019-05-15 21:24:41 · 1746 阅读 · 0 评论