文本挖掘技术案例视频

最新推荐文章于 2023-12-27 17:56:16 发布

军哥说AI

最新推荐文章于 2023-12-27 17:56:16 发布

阅读量1.5k

点赞数

文章标签：数据挖掘文本挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/class4715/article/details/45065901

版权

文本挖掘的定义

文本挖掘即文本数据库中的知识发现，是从大量文本的集合或语料库中发现隐含的、有潜在使用价值的模式和知识。

主题挖掘，通过分类或者聚类的方法找出主题相同的文本；

情感分析，通过处理能表达情感倾向的词语特征向量，得到每个文本的情感倾向及程度。

文本挖掘的流程

文本语料的采集

文本采集主要是利用搜索引擎或者网络爬虫技术,将所需的网页信息抓取过来。

火车采集器采集电商网站的评论信息。

文本预处理

分词

中文分词(Chinese Word Segmentation),也可称为中文切词,指的是通过某种特定的规则,将中文文本切分成单独的具有意义的词条基于字符串、基于词义理解

停用词过滤

文本的内容信息主要通过名词、动词、形容词等实词来体现，而连词、冠词、介词和助词等虚词以及在各种文本里都经常出现的部分高频词对区分类别毫无贡献, 这些不能反映文本类别的词语

就被称为停用词。

特征提取，权值转换，构建矩阵文本

如果将分词之后的所存词都作为特征项,会引起维数灾难,而且会影响后续研究的准确性。因为分词后得到的是一个极其稀疏的矩阵,所以需要通过特征提取将信息量小的,不重要的词汇从特征空间中去掉,提取出有代表性的,重要的词汇,以降低矩阵的维度。

文本的权值转换及向量表示

为了构建文本向量，需要为文本（特征提取后）中的词语设定权值

常见方法：布尔型处理、文档频率、信息增益、卡方检验、TF-IDF等

TF-IDF

见《基于Web文本挖掘的企业口碑情感分类模型研究》P46

文本挖掘及质量评估基于词典、KNN、神经网络、SVM等等

评估方法：查准率、查全率

应用

垃圾邮件的判定(spam or not spam)

– 类别 {spam, not-spam}

新闻出版按照栏目分类

– 类别 {政治,体育,军事,…}

词性标注

– 类别 {名词,动词,形容词,…}

词义排歧

– 类别 {词义1,词义2,…}

计算机论文的领域

– 类别ACM system

H: information systems

H.3: information retrieval and storage

视频文件下载地址：

　用户可通过百度网盘下载（抵制盗版，尊重版权），提取密码: ity8 　

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
3
评论
文本挖掘技术案例视频

文本挖掘的定义文本挖掘即文本数据库中的知识发现，是从大量文本的集合或语料库中发现隐含的、有潜在使用价值的模式和知识。主题挖掘，通过分类或者聚类的方法找出主题相同的文本；情感分析，通过处理能表达情感倾向的词语特征向量，得到每个文本的情感倾向及程度。文本挖掘的流程文本语料的采集文本采集主要是利用搜
复制链接

扫一扫

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

军哥说AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。