- 博客(1)
- 收藏
- 关注
原创 NLP作业02:课程设计报告
在Python中sklearn模块包含进行文本数据统计的方法,CountVectorizer() 函数可以统计分词后的词频TfidfTransformer()函数可以将每个词赋予不同的权重,一次来找到权重比较大的词,也就是重要的特征属性,这一步称为转化成 TF-IDF 权重向量,TF-IDF 是一种统计方法,用以评估一 字词对于一个文件集或一个语料库中的其中一份文件的重要程度。相反,不准确的分词将会产生大量的噪声,严重干扰计算机的识别理解能力,并对这些信息的后续处理工作产生较大的影响。特殊字符的处理过程。
2023-06-14 16:54:11 144
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人