Python 中的文本分类

最新推荐文章于 2024-08-20 11:55:00 发布

2401_84561736

最新推荐文章于 2024-08-20 11:55:00 发布

阅读量763

点赞数 11

分类专栏：程序员文章标签： python 分类 c#

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84561736/article/details/138296348

版权

文章介绍了如何使用类Document和Category来构建文档分类器，涉及词汇表处理、文档读取、概率计算以及如何通过Pool类进行学习和测试。同时提到了Python学习资源的相关整理和推荐。

摘要由CSDN通过智能技术生成

class Document ( object ):

“”" 用于学习（训练）文档和测试文档。

如果应该训练分类器，

可选参数 lear__必须设置为 True。如果是测试文档，learn 必须是设置为 False。“”" _vocabulary = BagOfWords ()

def __init__ ( self , 词汇表):

self . __name = “”

self . __document_class = None

self 。_words_and_freq = BagOfWords ()

文档。_vocabulary = 词汇

DEF read_document （自，文件名，学习=假）：

“”，” A读取原稿假定该文件是在UTF-8或在异8859任一编码的…（Latin-1的）。

所述的字文档存储在词袋中，即 self._words_and_freq = BagOfWords() “”"

try :

text = open ( filename , “r” , encoding = ‘utf-8’ ) 。read ()

除了 UnicodeDecodeError :

text = open ( filename, “r” , encoding = ‘latin-1’ ) 。阅读()

文本 = 文本。下()

词 = re 。拆分( r “\W” ,文本)

自我。_number_of_words = 0

for word in words :

self 。_words_and_freq 。add_word ( word )

如果学习：

文档。_词汇。add_word (字)

DEF __add__ （自，其他）：

“”，“重载‘+’。操作员添加两个文件在于添加文件的BagOfWords‘’”

RES = 文献（文献。_vocabulary ）

水库。_words_and_freq = self 。_words_and_freq + 其他。_words_and_freq

返回资源

DEF vocabulary_length （自）：

“”，“返回的词汇的长度”“”

返回 len个（文献。_vocabulary ）

def WordsAndFreq ( self ):

“”" 返回字典，包含

文档的 BagOfWords 属性中

包含的单词（键）及其频率（值）__“”" return self 。_words_and_freq 。BagOfWords ()

def Words ( self ):

“”" 返回 Document 对象 “”"

<

最低0.47元/天解锁文章

关注

11
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄149天

213: 原创

-: 周排名

-: 总排名

13万+: 访问

: 等级

4804: 积分

2103: 粉丝

2591: 获赞

4: 评论

2672: 收藏

私信

关注

热门文章

分类专栏

程序员 192篇
2024年程序员学习

最新评论

python模块—logging_no handler could be found for root python
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
亲测快捷高效的编写测试用例方法_新增一个分类编写用例怎么写出来
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/618801716。
最全抓包分析 TCP 协议_tcpdump解析协议，软件测试组件化架构实践
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年Android最全Android开发：你多久没涨工资了？，2024年最新面试阿里p8
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。