文本挖掘

最新推荐文章于 2024-05-13 13:46:21 发布

charie411

最新推荐文章于 2024-05-13 13:46:21 发布

阅读量712

点赞数

分类专栏：机器学习文章标签：自然语言处理机器学习文本挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/charie411/article/details/100691265

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

自然语言处理是计算机对语言信息进行处理的方法和技术。应用范围包括文本分类、情感分析（如政府舆情分析）、自动摘要等。

文本挖掘流程

预处理部分
特征工程
任务模型，如分类

预处理部分

	中文	英文
是否处理编码问题	document.decode(‘GBK’)	不需要
待处理非文本内容	1.空格 2.中英文标点 3.HTML标签	1.标点 2.大小写 3.拼写错误

HTML标签→BeautifulSoup(text).get_text()
中英文标点→1.正则表达式【u’[^a-zA-Z0-9\u4e00-\u9fa5]’】
大小写→.lower()

分句：使用nltk中的punkt句子分割器进行断句

#加载punkt句子分割器
sen_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') 
#对句子进行分割
sentences = sen_tokenizer.tokenize(paragraph)

分词：基于语料库的统计概率，最大化联合分布概率所对应的分词方法即为最优分词。

	中文	英文
分词工具	jieba.cut()	1. split() 2.nltk.tokenizer()

去除停用词words = [w for w in words if w not in set(stopwords.words(‘english’))]

特征工程

基于卡方检验CHI，文档频率DF, 信息增益IG，互信息MI的文本特征提取与实现
词袋模型：各个文本分词结果就是该语料集的词单元。

词向量：词-频对。对于某个文本，词单元的索引搭配上该词的词频，就能组成词向量表示该文本。
TF-IDF：词频-逆文本频率。IDF表示在所有文本出现的频率，给单元词重要性加权重，进行词特征值修订。

Word2Vec：Word to Vector。学习上下文，可以理解词间关系，理解句子。
基于CBOW、skip-gram、词-文档矩阵、词-词矩阵四种方法的词向量生成

不去除停用词的各个文本分词结果训练word2vec模型
应用模型将各个word表示为vector
对于某个文本，去停用词后，计算各词的平均向量作为该文本的特征向量
以所有文本的特征向量，标签为分类模型输入输出，建立分类模型。

分类模型

朴素贝叶斯
神经网络

实例

Kaggle-word2vec-nlp-tutorial

情绪分类
 情感分析
 基于爬虫与nlp的中国古代诗词文本挖掘项目
 针对中文词语的反义词查询接口
 基于机器学习与深度学习方法的情感分析算法实现与对比，包括决策树，贝叶斯，KNN, SVM ,MLP, CNN, LSTM实现

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
文本挖掘

自然语言处理是计算机对语言信息进行处理的方法和技术。应用范围包括文本分类、情感分析（如政府舆情分析）、自动摘要等。中文文本挖掘流程预处理部分中文英文是否处理编码问题document.decode(‘GBK’)不需要待处理非文本内容1.中英文标点 2.HTML标签1.标点 2.大小写 3.拼写错误分词：基于语料库的统计概率，最大化联合分布概率所对应的分...
复制链接

扫一扫

专栏目录

charie411 CSDN认证博客专家 CSDN认证企业博客

码龄9年

57: 原创

24万+: 周排名

151万+: 总排名

13万+: 访问

: 等级

1724: 积分

42: 粉丝

66: 获赞

27: 评论

420: 收藏

私信

关注

热门文章

分类专栏

最新评论

Kaggle手机验证manually verified
buaichixc: 请问多久可以manually verified呀
语义分割实现地表建筑物识别1
与星以舟4: 你打了这个比赛了吗
语义分割实现地表建筑物识别6 模型集成
CSDN-Ada助手: 非常感谢您分享关于语义分割实现地表建筑物识别的经验，这篇博客对于想要深入学习该领域的读者来说非常有用。我建议您可以继续探讨模型集成的技术，深入分析其优缺点，并结合实际案例进行讲解。这样的技术文章对其他用户的学习也会有很大的帮助。期待您的下一篇博客，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
语义分割实现地表建筑物识别1
上进的小橙子: 天池比赛官网，报名即可下载数据集
街景字符识别2-图像读取及图像增广
hellopbc: 请问这个图像扩展，具体是扩展了多少张照片呢，这个能输出吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。