驭风少年君
勤学苦练,不负韶华。
非学无以广才,非志无以成学。
展开
-
《学术小白学习之路15》英文文本的LDA主题建模与预测
预测新文档的主题分布:给出了一个新的文档new_doc,对其进行与之前相同的预处理步骤。然后,将预处理后的文档转换为词袋表示形式,并通过TF-IDF模型将其转换为TF-IDF表示。计算主题一致性和主题困惑度:接下来,代码通过迭代不同的主题数量,在每个主题数量下运行LDA(Latent Dirichlet Allocation)主题模型,并计算主题一致性和主题困惑度得分。打印每个主题的关键词:使用循环遍历每个主题的ID,通过lda_model.print_topic方法打印出每个主题的关键词。原创 2023-10-07 21:08:32 · 715 阅读 · 0 评论 -
《学术小白学习之路14》主题建模——主题概率分布相似度计算
首先、probabilities_1是一个形状为(num_topics_1, num_words)的NumPy数组,其中num_topics_1是第一阶段的主题数量,num_words是词语数量。probabilities_2是一个形状为(num_topics_2, num_words)的NumPy数组,其中num_topics_2是第二阶段的主题数量,num_words是词语数量。1.文本聚类和主题建模:在文本聚类任务中,可以使用主题概念分布的相似度来度量文本之间的语义相似性,并将相似的文本聚类在一起。原创 2023-10-07 19:48:32 · 521 阅读 · 0 评论 -
《学术小白学习之路13》基于DTM和主题共现网络——实现主题时序演化网络分析(数据代码在结尾)
'无人机 无人机 虚拟现实 虚拟现实 无人机 虚拟现实 无人机 无人机 虚拟现实 虚拟现实 头戴式 无人机 虚拟现实 头戴式 无人机 无人机 无人机 虚拟现实 无人机 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 虚拟现实 无人机 无人机 无人机 虚拟现实 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 无人机 虚拟现实 无人机 无人机 虚拟现实 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 无人机 虚拟现实 无人机 ',原创 2023-09-28 14:19:15 · 638 阅读 · 7 评论 -
《学术小白学习之路12》进阶-基于Python实现中文文本的DTM主题动态模型构建
其中logging用于查看执行日志,导入的gensim版本是gensim-3.8.3,根据自己系统要求以及pyhton版本选择合适的版本,强调一下最好使用3.8.3版本,不然会报错。处理后的数据保存在dictionary向量中,并将向量表达进行保存为news_dictionary文件词典,是每个词和对应ID的映射词典。通过上面的工作,我们已经将文档转换成了DTM模型所需要的词典以及语料库,下面把语料库、词典加载到模型中。主要注意的是本文用的是txt的数据集,而且每一个文档用换行的符号进行划分。原创 2023-09-26 16:21:36 · 624 阅读 · 1 评论 -
《学术小白学习之路11》DTM主题动态模型原理与基础构建
作者在论文中提及,狄利克雷分布不适合时序模型,所改常用高斯噪声 演化的状态空间模型来获取生成的β。要求gensim在4.0以后的版本,因为其中的ldasemodel对版本的要求挺高。t-1和t时刻都有对应的主题模型,下一个阶段的模型的参数aβ都与上一时刻有关系。而BTM是为分析短文本而生,该模型的生成是基于整个的语料库生成词语概率。对英文数据进行简单的处理,分词,不同于中文的分词,英文的分词更加简单;下一个时刻的主题,是根据上一个时刻的主题平滑的演化而来。该模型的主题概率的生成是基于文档层面的。原创 2023-09-26 13:14:11 · 723 阅读 · 1 评论 -
《学术小白学习之路10》论文常见方法:Doc2vec-句向量模型实现
将数据集中的摘要进行分词,获得一个list of list的数据格式,每个词的分开的形式。再定义停用词典,用于分词,还可以自己定义一个分词词典。其中需要将数据转为Doc所识别的格式。可以比较每个文档的相似度具体的值。用于文献的摘要的相似度的计算。导入gensim中的相应的包。用Dbow模式进行训练。原创 2023-09-25 20:45:54 · 151 阅读 · 0 评论 -
《学术小白的学习之路 09》基于困惑度和余弦相似度确定LDA最优主题数
from gensim import corpora, models def ldamodel(num_topics): cop = open(r'C:\Users\N\Desktop\senti_data (负) .csv',encoding='gb18030') train = [] for line in cop.readlines(): line = [word.strip() for word in line.split(' ')]原创 2021-09-18 17:13:57 · 4277 阅读 · 8 评论 -
《学术小白的学习之路 08》自然语言处理之 sklearn_LDA主题识别、pyLDAvis的主题可视化以及层次聚类
本文主要是学习参考杨秀璋老师的博客,笔记总结与记忆。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、LDA主题识别1.1 数据读取1.2 语料分词1.3 文本转为Tfidf矩阵1.4 LDA 模型1.4.1 模型构建1.4.2 模型主题参数1.5 pyLDAvis 可视化二、文本层次聚类2.1层次聚类2.2 文本的聚类2.2.1 筛选Top1002.2.2 分词处理2.2.3相关性计算2.2.4 相似度计算2.2.5 可视化书山有路勤为径,学海无涯苦作舟(行行原创 2021-09-13 11:20:20 · 925 阅读 · 5 评论 -
《学术小白的学习之路 07》自然语言处理之 LDA主题模型 01
本文主要是学习参考杨秀璋老师的博客,笔记总结与记忆。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、LDA主题模型1.1简介1.2安装二、LDA主题识别2.1前期操作2.1.1生成TF-IDF文本权重矩阵2.1.2 调用LDA模型书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人原文链接一、LDA主题模型1.1简介LDA(文档主题生成模型)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习,它是将一篇文档的每个词都以原创 2021-09-12 20:59:45 · 795 阅读 · 2 评论 -
《学术小白的学习之路 06》自然语言处理之 数据预处理、Jieba分词和文本聚类
本文主要是学习参考杨秀璋老师的博客,笔记总结。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、回归书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人原文链接一、回归...原创 2021-09-12 10:30:20 · 353 阅读 · 0 评论 -
《学术小白的学习之路 01》情感分析01 之 Snownlp的豆瓣评论情感分析
本文主要是学习参考杨秀璋老师的博客原文链接文章目录书山有路勤为径,学海无涯苦作舟原文链接1.豆瓣数据抓取2.情感分析的预处理以及词云的显示2.1 情感分析的步骤:2.2词云的显示3.Snownlp情感分析书山有路勤为径,学海无涯苦作舟原文链接原文链接1.豆瓣数据抓取2.情感分析的预处理以及词云的显示2.1 情感分析的步骤:1)利用爬虫获取语料数据2)使用jieba工具对数据进行中文的分词和词性的标注3)定义情感词典,提取每一行的文本的情感词汇4)通过构建情感词构建情感词的矩阵,原创 2021-09-09 12:39:06 · 1238 阅读 · 0 评论 -
《学术小白的学习之路 02》情感分析02 之基于大连理工情感词典的情感分析和情绪计算
本文主要是学习参考杨秀璋老师的博客原文链接文章目录书山有路勤为径,学海无涯苦作舟原文链接1.大连理工情感词典书山有路勤为径,学海无涯苦作舟原文链接原文链接1.大连理工情感词典情感的研究:情感分析 以及 情感的分类情感分析的主要流程:1)获取语料数据2)对语料进行分词,标注词性3)定义情感词典提取文本的情感吃4)构建情感矩阵,计算情感分数5)结果的评估大致流程:目前中国成熟的情感词典:大连理工大学情感词汇本体库知网的HowNet情感词典TW大学中文情感极性情感词典原创 2021-09-10 11:08:50 · 3669 阅读 · 3 评论 -
《学术小白的学习之路 03》机器学习之回归分析 线性回归,逻辑回归,多项式回归。
本文主要是学习参考杨秀璋老师的博客,笔记总结。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、回归1.1回归的定义1.2线性回归书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人原文链接一、回归1.1回归的定义回归(regression)最早是英国的生物统计学家高尔顿和其学生在研究父母与孩子的身高的时候,发现孩子的身高会接近父母的身高,但是不会超过。现在的回归:利用多个自变量预测因变量的结果的数学方法。在回归分析中,我们需要预原创 2021-09-11 15:58:30 · 189 阅读 · 0 评论