数据挖掘-文本分析

1.文本分析
摘要由CSDN通过智能技术生成

含义:文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

分析过程:

1.搭建语料库(即要分析文章的集合)。
知识点:os模块

import os;
import os.path;
import codecs;
#数组变量
filePaths=[];
fileContents = [];
#文件目录,文件夹下的子目录,文件
for root,dirs,files in os.walk(   
    #文件路径,注意Windows下应是 ‘\\’
    "C:\\Users\\Desktop\\Python\\DM\\Sample"       
):
    for name in files:
        filePath = os.path.join(root,name) ;  #拼接文件路径
        filePaths.append(filePath);
        f=codecs.open(filePath,'r','utf-8')  #读取文件:文件路径,打开方式,文件编码
        fileContent = f.read()
        f.close()
        fileContents.append(fileContent)
import pandas;
corpos=pandas.DataFrame({
        'filePath':filePaths,
        'fileContent':fileContents
        })
 
#导入文件的时候, 设置 utf-8 文件编码,文件中存在异常词,可能会报错
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 0: invalid start byte
解决方法:
将  f=codecs.open(filePath,'r','utf-8') 替换成
f=codecs.open(filePath,'r','gb18030',errors='ignore')
即可实现文件的正常读取。

2.中文分词—“结巴分词”
知识点:jieba
安装:pip install jieba

import jieba
segments = []    #分词
filePaths = []     #文件路径
#遍历数据,完成分词
for index, row in corpos.iterrows():
    filePath = row['filePath']
    fileContent = row['fileContent']
#分词 jieba.cut(需要分词的文件)返回数组
    segs = jieb
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值