含义:文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
分析过程:
1.搭建语料库(即要分析文章的集合)。
知识点:os模块
import os;
import os.path;
import codecs;
#数组变量
filePaths=[];
fileContents = [];
#文件目录,文件夹下的子目录,文件
for root,dirs,files in os.walk(
#文件路径,注意Windows下应是 ‘\\’
"C:\\Users\\Desktop\\Python\\DM\\Sample"
):
for name in files:
filePath = os.path.join(root,name) ; #拼接文件路径
filePaths.append(filePath);
f=codecs.open(filePath,'r','utf-8') #读取文件:文件路径,打开方式,文件编码
fileContent = f.read()
f.close()
fileContents.append(fileContent)
import pandas;
corpos=pandas.DataFrame({
'filePath':filePaths,
'fileContent':fileContents
})
#导入文件的时候, 设置 utf-8 文件编码,文件中存在异常词,可能会报错
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 0: invalid start byte
解决方法:
将 f=codecs.open(filePath,'r','utf-8') 替换成
f=codecs.open(filePath,'r','gb18030',errors='ignore')
即可实现文件的正常读取。
2.中文分词—“结巴分词”
知识点:jieba
安装:pip install jieba
import jieba
segments = [] #分词
filePaths = [] #文件路径
#遍历数据,完成分词
for index, row in corpos.iterrows():
filePath = row['filePath']
fileContent = row['fileContent']
#分词 jieba.cut(需要分词的文件)返回数组
segs = jieb