机器学习--应用:评估帖子相关性

本文介绍了使用Python Scikit learn库和nltk工具包来评估帖子的相关性。首先,将原始文本转化为词袋模型,统计词语个数并转为向量。接着进行词频向量的归一化,使用了英文停用词表。然后进行了词干处理,使用nltk的SnowballStemmer。最后,通过TF-IDF计算帖子的相似度。
摘要由CSDN通过智能技术生成

一工具:python4.3,Scikit learn库,nltk(自然语言处理工具包),参考资料:《机器学习系统设计》

二步骤:

1、 将原始文本转化为词袋:统计词语个数,并把词频转化为向量。

from sklearn.feature_extraction.text import CountVectorizer

注意点:1)打开文件:os.path.join()连接两个文件名地址的时候,就比os.path.join("D:\","test.txt")结果是D:\test.txt

from utils import DATA_DIR

TOY_DIR = os.path.join(DATA_DIR, "toy")
posts = [open(os.path.join(TOY_DIR, f)).read() for f in os.listdir(TOY_DIR)]

new_post = "imaging d
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值