词语相似度计算：4、提取文本tf、tfidf特征

最新推荐文章于 2024-09-10 16:25:43 发布

mmc2015

最新推荐文章于 2024-09-10 16:25:43 发布

阅读量3.4k

点赞数

分类专栏：词语相似度计算，万小军老师《语义计算课程》文章标签：词语相似度计算提取文本tf特征提取文本tfidf特征

本文链接：https://blog.csdn.net/mmc2015/article/details/50943063

版权

本文介绍如何利用sklearn库进行文本处理，详细阐述了如何提取文本的TF和TF-IDF特征，以用于词语相似度计算。

摘要由CSDN通过智能技术生成

还是sklearn，不多做解释：

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

#!usr/bin/env python
# -*- coding:utf-8 -*-



import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

import sys
reload(sys)
sys.setdefaultencoding("utf8")
#for UnicodeEncodeError


#get all file names in the "ParentFolder"
def GetFilesInFolder(ParentFolder):
    import os
    filenameList = []
    for filename in os.listdir(ParentFolder):
        print filename
        filenameList.append(filename)
    return filenameList

ParentFolder="wikiData"
filenameList=GetFilesInFolder(ParentFolder)
dataList=[]
for fileName in filenameList:
    f=open(ParentFolder+"/"+fileName,"r")
    f