一工具:python4.3,Scikit learn库,nltk(自然语言处理工具包),参考资料:《机器学习系统设计》
二步骤:
1、 将原始文本转化为词袋:统计词语个数,并把词频转化为向量。
from sklearn.feature_extraction.text import CountVectorizer
注意点:1)打开文件:os.path.join()连接两个文件名地址的时候,就比os.path.join("D:\","test.txt")结果是D:\test.txt
from utils import DATA_DIR
TOY_DIR = os.path.join(DATA_DIR, "toy")
posts = [open(os.path.join(TOY_DIR, f)).read() for f in os.listdir(TOY_DIR)]
new_post = "imaging d