Python 中的文本分类

文章介绍了如何使用类Document和Category来构建文档分类器,涉及词汇表处理、文档读取、概率计算以及如何通过Pool类进行学习和测试。同时提到了Python学习资源的相关整理和推荐。
摘要由CSDN通过智能技术生成

class Document ( object ):

“”" 用于学习(训练)文档和测试文档。

如果应该训练分类器,

可选参数 lear__必须设置为 True。如果是测试文档,learn 必须是设置为 False。“”" _vocabulary = BagOfWords ()

def __init__ ( self , 词汇表):

self . __name = “”

self . __document_class = None

self 。_words_and_freq = BagOfWords ()

文档。_vocabulary = 词汇

DEF read_document (自,文件名, 学习=假):

“”,” A读取原稿假定该文件是在UTF-8或在异8859任一编码的…(Latin-1的)。

所述的字文档存储在词袋中,即 self._words_and_freq = BagOfWords() “”"

try :

text = open ( filename , “r” , encoding = ‘utf-8’ ) 。read ()

除了 UnicodeDecodeError :

text = open ( filename, “r” , encoding = ‘latin-1’ ) 。阅读()

文本 = 文本。下()

词 = re 。拆分( r “\W” ,文本)

自我。_number_of_words = 0

for word in words :

self 。_words_and_freq 。add_word ( word )

如果 学习:

文档。_词汇。add_word (字)

DEF __add__ (自,其他):

“”,“重载‘+’。操作员添加两个文件在于添加文件的BagOfWords‘’”

RES = 文献(文献。_vocabulary )

水库。_words_and_freq = self 。_words_and_freq + 其他。_words_and_freq

返回 资源

DEF vocabulary_length (自):

“”,“返回的词汇的长度”“”

返回 len个(文献。_vocabulary )

def WordsAndFreq ( self ):

“”" 返回字典,包含

文档的 BagOfWords 属性中

包含的单词(键)及其频率(值)__“”" return self 。_words_and_freq 。BagOfWords ()

def Words ( self ):

“”" 返回 Document 对象 “”"

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值