第六章文本分类

最新推荐文章于 2020-12-05 17:42:53 发布

下川

最新推荐文章于 2020-12-05 17:42:53 发布

阅读量548

点赞数

分类专栏： nltk说明书

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oXiaChuan/article/details/48396355

版权

nltk说明书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

def gender_features(word):

return {'last_letter':word[-1]}

定义一个性别特征，通过尾字母进行判断

names = ([(name, 'male') for name in names.words('male.txt')] +
[(name, 'female') for name in names.words('female.txt')])

用男名和女名生成names列表

featuresets = [(gender_features(n), g) for (n,g) in names]

将names根据尾字母生成特征集

train_set, test_set = featuresets[500:], featuresets[:500]

生成训练集和测试集

classifier = nltk.NaiveBayesClassifier.train(train_set)

使用朴素贝叶斯分类器

classifier.classify(gender_features('huangcongying‘))

用分类器进行测试

nltk.classify.accuracy(classifier, test_set)

用测试集生成准确率

classifier.show_most_informative_features(5)

检查分类器，展示最有用的5个特征

train_names = names[1500:]

devtest_names = names[500:1500]

test_names = names[:500]

训练集用于训练模型，开发测试集用于进行错误分析，测试集用于系统的最终评估。

train_set = [(gender_features(n), g) for (n,g) in train_names]

devtest_set = [(gender_features(n), g) for (n,g) in devtest_names]

test_set = [(gender_features(n), g) for (n,g) in test_names]

classifier = nltk.NaiveBayesClassifier.train(train_set)

nltk.classify.accuracy(classifier, devtest_set)

设立训练集、开发测试集和测试集的特征集合，并计算准准确率

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第六章文本分类

def gender_features(word):return {'last_letter':word[-1]}定义一个性别特征，通过尾字母进行判断names = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('fem
复制链接

扫一扫

专栏目录

下川 CSDN认证博客专家 CSDN认证企业博客

码龄12年

8: 原创

118万+: 周排名

116万+: 总排名

6743: 访问

: 等级

153: 积分

15: 粉丝

5: 获赞

4: 评论

3: 收藏

私信

关注

热门文章

分类专栏

nltk说明书 5篇
nltk cook 1篇

最新评论

第5次作业答案跟帖
xqhlsjslcy: 好嘞，已解决
第5次作业答案跟帖
下川回复 xqhlsjslcy: 那需要在CSS里面更改，为了简单，我就没有把那段代码放上来
第5次作业答案跟帖
xqhlsjslcy: 按照这个源码做了之后排序是正确的，但是没有显示黄色。。。
第5次作业答案跟帖
下川: 更新这些之后，请使用以下代码重新提交你的网页 [code=ruby] git add . git commit -a -m "commit" git push heroku master [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。