文本分析
文章平均质量分 94
艾派森
CSDN内容合伙人、新星导师、大数据分析领域优质创作者、阿里云社区专家博主,热爱python(昵称的由来),专注于数据分析、数据挖掘,持续分享学习笔记,感谢关注与支持。专栏【大数据分析案例合集】,感兴趣的小伙伴速速订阅!接Python爬虫、数据分析、数据挖掘、机器学习等相关课程设计作业/毕设,有需求请私信我!需要领取博文代码、数据集、学习资料、进粉丝交流群、的小伙伴点击了解:https://bbs.csdn.net/topics/614636587
展开
-
基于LDA主题分析的《老友记》情景喜剧数据集的建模分析
本数据集来源于kaggle,《老友记》是一部美国情景喜剧,由大卫·克兰和玛尔塔·考夫曼创作,于1994年9月22日至2004年5月6日在美国全国广播公司播出,共十季。这部剧由詹妮弗·安妮斯顿、柯特妮·考克斯、丽莎·库卓、马特·勒布朗、马修·佩里和大卫·修默主演,围绕着六个住在纽约曼哈顿的二三十岁的朋友展开。该系列由Bright/Kauffman/Crane Productions与华纳兄弟电视公司联合制作。最初的执行制片人是凯文·s·布莱特、考夫曼和克兰。原创 2023-11-12 12:11:57 · 12832 阅读 · 199 评论 -
基于LSTM和N-gram序列的英文文本生成
本实验旨在探索基于LSTM和N-gram序列的英文文本生成方法,提高生成文本的流畅性、多样性和语义准确性,为自然语言处理领域的相关研究和应用提供有益的参考。原创 2023-12-07 17:27:51 · 15784 阅读 · 165 评论 -
数据挖掘实战-基于word2vec的短文本情感分析
Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出的一套新的词嵌入方法,是一种神经网络概率语言模型,可以用于计算单词的词向量。与传统的高维词向量 one-hot representation 相比,Word2vec 词向量的维度通常在 100~300 维之间,减少了计算的复杂度,也不会造成向量维数灾难。除此之外,Word2vec词向量是根据词汇所在上下文计算出的,充分捕获了上下文的语义信息,很容易通过它计算两个词汇的相似程度。原创 2023-11-30 17:09:39 · 20980 阅读 · 162 评论 -
基于Python爬虫+词云图+情感分析对某东上完美日记的用户评论分析
随着互联网和社交媒体的发展,用户评论成为了消费者表达自己意见和情感的主要途径之一。对于企业来说,深入了解用户对其产品或服务的看法可以帮助他们更好地了解市场需求、产品改进的方向,以及消费者的情感倾向。因此,对用户评论进行分析已经成为了市场研究和商业决策的重要手段之一。原创 2023-08-10 22:10:23 · 13780 阅读 · 116 评论 -
基于爬虫+词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析
本项目是基于携程网中关于大唐不夜城评论的文本分析,项目中用到了Python爬虫、词频分析、词云图分析、kmeans聚类、LDA主题分析、情感分析、社会网络语义分析等。本次实验我们使用了爬虫、词云图、情感分析、LDA主题分析、TF-IDF+Kmeans、社会网络语义分析等对大唐不夜城的评论进行了分析。关于博文中的源码大家可以关注派森小木屋公众号进入粉丝群领取,如对文章有疑惑,请评论区留言。原创 2023-06-09 08:00:00 · 13777 阅读 · 54 评论 -
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
本文将手把手教会你使用jieba库进行中文分词和去除停用词,这是学会文本分析的必经之路!原创 2023-06-05 08:00:00 · 27802 阅读 · 160 评论 -
Python3实现基于ARIMA模型来预测茅台股票价格趋势
ARIMA(Autoregressive Integrated Moving Average)模型是一种广泛使用的时间序列分析方法,它可以用于对未来的数据进行预测。ARIMA模型由自回归模型(AR模型)、差分整合模型(I模型)和移动平均模型(MA模型)组成,因此也被称为ARIMA(p,d,q)模型。其中,p表示自回归阶数,d表示差分阶数,q表示移动平均阶数。具体来说,ARIMA模型可以通过以下步骤进行建模:数据预处理:对时间序列进行平稳性检验,如果不满足平稳性,则进行差分操作。原创 2023-06-01 08:00:00 · 15995 阅读 · 119 评论 -
文本分析-使用jieba库实现TF-IDF算法提取关键词
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。简单来说就是:一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。这也就是TF-IDF的含义。原创 2023-06-27 16:51:05 · 18745 阅读 · 100 评论 -
文本分析-使用Python做词频统计分析
前面我们已经介绍了文本分析中的中文分词和去除停用词,这篇文章将详细介绍分词后如何进行词频统计分析。原创 2023-06-23 08:35:07 · 25311 阅读 · 95 评论 -
基于Tomotopy构建LDA主题模型(附案例实战)
tomotopy 是 tomoto(主题建模工具)的 Python 扩展,它是用 C++ 编写的基于 Gibbs 采样的主题模型库。支持的主题模型包括 LDA、DMR、HDP、MG-LDA、PA 和 HPA, 利用现代 CPU 的矢量化来最大化速度。当前版本的 tomotopy 支持的主题模型包括:潜在狄利克雷分配(LDAModel)标记的 LDA(LLDA 模型)部分标记的 LDA(PLDA 模型)监督LDA(SLDA模型)Dirichlet 多项回归 (DMRModel)原创 2023-05-30 12:56:14 · 13145 阅读 · 161 评论 -
ROSTEA软件下载及情感分析详细操作教程(附网盘链接)
原ROST虚拟团队出品的ROST系列文本内容挖掘分析平台,是辅助人文社会科学研究的免费计算平台。该软件可以实现文本预处理、分字、分词、词性识别、特殊名词抽取、词频统计、英文词频统计、情感计算、分类算法、聚类算法等一系列文本挖掘,是人文社科研究和论文写作的一把利器。该软件用户量超过一万人,遍布海内外100多所大学,包括剑桥大学、日本北海道大学、北京大学、清华大学、香港城市大学、澳门大学等众多高校。关于ROSTCM6的安装介绍可以参考之前的文章ROSTCM6软件下载及语义网络分析详细操作教程ROST EA。原创 2023-05-09 08:00:00 · 14498 阅读 · 156 评论 -
ROSTCM6软件下载及语义网络分析详细操作教程(附网盘链接)
ROSTCM6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。原创 2023-04-02 08:00:00 · 27028 阅读 · 90 评论 -
基于gensim实现word2vec模型(附案例实战)
Word2Vec是google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。用词向量来表示词并不是Word2Vec的首创,在很久之前就出现了。最早的词向量采用One-Hot编码,又称为一位有效编码,每个词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。原创 2022-11-18 07:30:00 · 6624 阅读 · 21 评论 -
基于sklearn实现LDA主题模型(附实战案例)
目录LDA主题模型1.LDA主题模型原理2.LDA主题模型推演过程3.sklearn实现LDA主题模型(实战)3.1数据集介绍3.2导入数据3.3分词处理 3.4文本向量化3.5构建LDA模型3.6LDA模型可视化 3.7困惑度 其实说到LDA能想到的有两个含义,一种是线性判别分析(Linear Discriminant Analysis),一种说的是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)。 现在讨论的是主题模型原创 2022-11-17 07:30:00 · 16844 阅读 · 87 评论 -
SnowNLP使用自定义语料进行模型训练(情感分析)
SnowNLP是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的sEO,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为SnowNLP本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现"水土不服"”。原创 2022-11-08 07:00:00 · 17637 阅读 · 51 评论