文本挖掘技术案例视频

文本挖掘的定义
文本挖掘即文本数据库中的知识发现,是从大量文本的集合或语料库中发现隐含的、有潜在使用价值的模式和知识。
主题挖掘,通过分类或者聚类的方法找出主题相同的文本;
情感分析,通过处理能表达情感倾向的词语特征向量,得到每个文本的情感倾向及程度。
 
文本挖掘的流程
 
 
 

 

文本语料的采集
文本采集主要是利用搜索引擎或者网络爬虫技术,将所需的网页信息抓取过来。
火车采集器采集电商网站的评论信息。
 
文本预处理
 
 
 

 

分词
中文分词(Chinese Word Segmentation),也可称为中文切词,指的是通过某种特定的规则,将中文文本切分成单独的具有意义的词条基于字符串、基于词义理解
 
停用词过滤
文本的内容信息主要通过名词、动词、形容词等实词来体现 , 而连词、冠词、介词和助词等虚词以及在各种文本里都经常出现的部分高频词对区分类别毫无贡献, 这些不能反映文本类别的词语
就被称为停用词。
 
 
特征提取,权值转换,构建矩阵文本
如果将分词之后的所存词都作为特征项,会引起维数灾难,而且会影响后续研究的准确性。因为分词后得到的是一个极其稀疏的矩阵,所以需要通过特征提取将信息量小的,不重要的词汇从特征空间中去掉,提取出有代表性的,重要的词汇,以 降低矩阵的维度。
 
文本的权值转换及向量表示
为了构建文本向量,需要为文本(特征提取后)中的词语设定权值
常见方法:布尔型处理、文档频率、信息增益、卡方检验、TF-IDF等
 
TF-IDF
见《基于Web文本挖掘的企业口碑情感分类模型研究》P46
文本挖掘及质量评估基于词典、KNN、神经网络、SVM等等
评估方法:查准率、查全率
 

 

应用
垃圾邮件的判定(spam or not spam)
– 类别 {spam, not-spam}
新闻出版按照栏目分类
– 类别 {政治,体育,军事,…}
词性标注
– 类别 {名词,动词,形容词,…}
词义排歧
– 类别 {词义1,词义2,…}
计算机论文的领域
        – 类别ACM system
                H: information systems
                H.3: information retrieval and storage 

 

 视频文件下载地址:

    用户可通过百度网盘下载(抵制盗版,尊重版权),提取密码: ity8  

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

军哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值