![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLTK
风华明远
目前研究Tensorflow 以及 tkinter
展开
-
NLTK 实现决策树分类器DecisionTreeClassifier
NLTK也提供了决策树分类器(DecisionTreeClassifier)。不过它的用法与sklearn中的不同,而且提供的例子是文本分类的例子,收敛很慢。本文根据sklearn中的鸢尾花例子修改。因为NLTK的决策树分类器与sklearn的输入数据格式不同,需要修改。鸢尾花是有4个参数的,因此需要用iris_features将4个参数组合为一个参数:def iris_features(iris,result): features = {} for item in iris:原创 2021-05-09 23:18:37 · 363 阅读 · 0 评论 -
NLTK CrossValidationProbDist的一个bug
NLTK的CrossValidationProbDist实现有一个bug。CrossValidationProbDist的父类是ProbDistI,其中定义了一个抽象方法max。但是在CrossValidationProbDist没有实现此方法,因此在调用CrossValidationProbDist时会产出错误:Traceback (most recent call last): File "D:/py/crm/临时文件.py", line 8, in <module> cv =原创 2021-05-07 09:45:48 · 115 阅读 · 0 评论 -
古德图灵估计(Good-Turing Estimation)
古德-图灵估计最早发表于1953年。其核心思想是用r取代原始的r。举例说明如下:假设有单词组“the the the big big dog”,其中the出现3次,big出现2次,dog出现1次。正常的情况下计算单词出现的频次只需要用单词出现的次数/总单词数。比如the的频次=3/6=0.5。但是如果考虑到未出现的单词,比如eat,算法上需要如何处理?古德-图灵算法将已经出现的单词的频次进行调整,将出现次数r定义为(r+1)*(出现r+1次单词的个数)/ (出现r次单词的个数)。通过计算可以得到新的频次原创 2021-05-03 21:35:48 · 3315 阅读 · 1 评论 -
使用NLTK做电影评论分析
NLTK软件包包含了电影评论和分类器,可以比较容易实现电影评论的分类:正面评价还是负面评价。本文的算法使用了分句、分词、去停用词、词性标注、词性还原,而不是直接将电影评论分词后直接使用。尽管效果类似,但是这样处理更贴近实际应用情况:from nltk.corpus import movie_reviewsfrom nltk import tokenizefrom nltk.corpus import stopwordsfrom nltk import pos_tagimport nltk.clas原创 2021-04-29 14:09:27 · 1086 阅读 · 0 评论