数据挖掘-文本分析

最新推荐文章于 2024-01-08 01:26:51 发布

Data_Kimi

最新推荐文章于 2024-01-08 01:26:51 发布

阅读量1.7k

点赞数

分类专栏：技能类文章标签：数据挖掘文本分析词汇云

本文链接：https://blog.csdn.net/weixin_42248408/article/details/100008891

版权

1.文本分析

摘要由CSDN通过智能技术生成

含义：文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。

分析过程：

1.搭建语料库（即要分析文章的集合）。
知识点：os模块

import os;
import os.path;
import codecs;
#数组变量
filePaths=[];
fileContents = [];
#文件目录，文件夹下的子目录，文件
for root,dirs,files in os.walk(   
    #文件路径，注意Windows下应是 ‘\\’
    "C:\\Users\\Desktop\\Python\\DM\\Sample"       
):
    for name in files:
        filePath = os.path.join(root,name) ;  #拼接文件路径
        filePaths.append(filePath);
        f=codecs.open(filePath,'r','utf-8')  #读取文件：文件路径，打开方式，文件编码
        fileContent = f.read()
        f.close()
        fileContents.append(fileContent)
import pandas;
corpos=pandas.DataFrame({
        'filePath':filePaths,
        'fileContent':fileContents
        })
 
#导入文件的时候， 设置 utf-8 文件编码，文件中存在异常词，可能会报错
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 0: invalid start byte
解决方法：
将  f=codecs.open(filePath,'r','utf-8') 替换成
f=codecs.open(filePath,'r','gb18030',errors='ignore')
即可实现文件的正常读取。

2.中文分词—“结巴分词”
知识点：jieba
安装：pip install jieba

import jieba
segments = []    #分词
filePaths = []     #文件路径
#遍历数据，完成分词
for index, row in corpos.iterrows():
    filePath = row['filePath']
    fileContent = row['fileContent']
#分词 jieba.cut(需要分词的文件）返回数组
    segs = jieb