文本挖掘（超详细：数据获取 - 数据清洗 - 中文分词 - 去除停用词 - 词频统计 - 词云图 - 情感分析）

Yolo阿

已于 2022-07-29 01:12:54 修改

阅读量4.7w

收藏 1.4k

点赞数 136

分类专栏：文本挖掘文章标签：自然语言处理 python javascript

于 2021-03-28 17:22:16 首次发布

本文链接：https://blog.csdn.net/qq_45587352/article/details/115280936

版权

文本挖掘（超详细）

朋友们好，文本挖掘这篇文章写了也有一段时间了，承蒙朋友们的厚爱，作者后面有做过一个升级版的文本挖掘，但苦于没有时间一直没有更新，现在在抽时间把后面写的这个也发布出来，两篇文章的步骤可能并不一致，但也许能给大家的学习带来帮助。另外，两篇文章的部分资源都是需要些许积分的，仅仅是因为作者也需要积分学习哈，希望大家不要介意呐~
文本挖掘（爬虫 - 预处理 - 特征词提取 - 特征词聚类 - 特征词情感）

工具：八爪鱼采集器 + Python + JavaScript
例如：数据获取 - 数据清洗 - 中文分词 - 去除停用词 - 词频统计 - 词云图 - 情感分析

数据获取

工具：八爪鱼采集器
链接：下载

使用：
1、下载压缩包并解压
2、点击 .exe 文件安装
3、使用模板采集数据/自定义配置采集数据

示例：
1、选择模板

2、打开商品详情页并复制网址

3、启动采集（共 1000 条数据）

4、采集结果（只保留了 4 列）

数据清洗

简单的数据清洗：把评论内容复制放到一个 Word 文档中，通过文本的 查找与替换 功能去除京东的评论模板文本。

Before:

After:

中文分词

工具：Python + VS Code 软件

VS Code 配置 Python 环境：自行搜索

代码：

import jieba
import jieba.analyse

# 待分词的文本路径
sourceTxt = 'comment_1.txt'
# 分好词后的文本路径
targetTxt = 'comment_1_fenci.txt'

# 对文本进行操作
with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:
    for line in sourceFile:
        seg = jieba.cut(line.strip(), cut_all = False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        targetFile.write(output)
        targetFile.write('\n')
    prinf('写入成功！')

# 提取关键词
with open(targetTxt, 'r', encoding = 'utf-8') as

最低0.47元/天解锁文章