自然语言处理方法及应用
文章平均质量分 94
介绍文本预处理方法;文本相似度计算方法;文本关键词提取、文本聚类方法;文本分类方法等。具体的操作或算法包括:分词、去停用词、词频统计、相似度度量方法、TF-IDF、TextRank、K-means、概率图模型、随机游走、2vec模型、SVM等。
HFUT_qianyang
刘老师指示:学如逆水行舟,不进则退;心似平原跑马,易放难收。不能放松,继续!
展开
-
如何直观的看出主题模型学习结果的好坏
本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com 。内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录主题模型的评估指标直观的展示如何构建类似的矩阵参考论文主题模型的评估指标在主题模型中,常见的评估指标包括Perplexity(即困惑度)以及Coherence Score、Topic Consensus等。而在计算Coherence Score有几种方案:其一是基于点互信息的,如下所示:使用这种方式,需要第三方数据来评估,如这里提及的Wi原创 2020-07-07 09:08:33 · 1721 阅读 · 1 评论 -
利用LDA主题模型的生成过程仿真数据
仿真代码因为,最近论文,需要基于图模型的过程,仿真数据。因此,找了一些已有的代码和论文。以下,是利用LDA的生成过程仿真数据的过程,这个代码是使用R语言编写的,代码来源于:https://www.r-bloggers.com/topic-modeling-1-simulated-lda-corpus/(https://gist.github.com/robbymeals/3985469)。### Basic LDA Topic Model Simulation ###### Generate Simu原创 2020-07-03 10:16:38 · 1352 阅读 · 0 评论 -
LDA的Gibbs抽样详细推理与理解
LDA图模型表示LDA所要求得目标分布联合概率分布求解参考文献本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 欢迎交流。LDA图模型表示LDA所要求得目标分布关于LDA的理解,可以去看《LDA数学八卦》以及Heinrich G. Parameter estimation for text analysis[J]. University of Leip原创 2016-12-11 21:19:33 · 5388 阅读 · 1 评论 -
Java 处理英文文本标点符号去除
文章目录介绍java判断是否为标点符号介绍在英文文本处理时,需要将噪音字符出去,其中标点符号便属于噪音字符。在我的这篇博客中,https://blog.csdn.net/qy20115549/article/details/83869689 介绍了使用stanford-corenlp实现分词、词形还原的操作。其分词结果,标点符号也成了独立的字符串,剩下的工作便是对分词后获得的字符串集合进行逐个...原创 2018-11-09 08:20:56 · 3654 阅读 · 0 评论 -
Java基于stanford-corenlp实现英文词形还原
文章目录简介stanford-corenlpjava程序简介在做英文文本数据分析时,第一步便是提取词根。例如,一段文本中了出现‘options’和‘option’,其实这两个单词表示一个意思,那么在预处理时‘options’和‘option’都处理成‘option’。例如,下面给定的文本:jhend925 https://blog.csdn.net/timo1160139211/arti...原创 2018-11-08 22:23:42 · 3452 阅读 · 0 评论 -
如何将多个文本数据转化为指定数据格式[以电影数据为例](数据预处理)
数据格式目标数据格式程序局限性本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)数据格式首先,我来介绍一下数据格式。存在多个文本,每个文本,里面包含电影的id,用户的id及用户对电影的评分,及评分时间。如下面两个表:这张图为目录下的文本。一个文本表示,一部电影所有用户的评分及评分时间。 目标数据格式如下图所示,为所需要转化原创 2016-11-16 09:50:42 · 898 阅读 · 0 评论 -
DPMM的理解、公式推导及抽样
DPMM学习的基础及相关论文学习DPMM(Dirichlet 过程混合模型)之前,首先要去理解DP过程及其三种构造方式,(1)Stick-breaking 构造,(2)Polya urn scheme 构造,(3)Chinese restaurant process 构造。这三种构造是学习DPMM及HDP,还有其他非参模型的基础工作。关于Stick-breaking 构造可以参考我的一篇博客:htt原创 2017-09-09 09:11:37 · 9411 阅读 · 11 评论 -
LSTM模型结合LDA对序列性文本建模 阅读笔记 2017 ICML
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章来源 Zaheer M, Ahmed A, Smola A J. Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequence Dat...原创 2018-06-04 10:40:26 · 3753 阅读 · 0 评论 -
Jaccard文本相似度计算 Java程序
Jaccard相似系数两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的Jaccard系数,用符号 J(A,B) 表示。Jaccard相似系数是衡量两个集合相似度的一种指标: Java程序package clouddataprocess;import org.slf4j.Logger;import org.slf4j.LoggerFac...原创 2018-06-13 19:04:01 · 3863 阅读 · 0 评论 -
自然语言处理(英文停用词删除) Java程序
英文语料预处理针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词等操作。英文停用词,类似于’a’,‘can’等对我们进行文本分析是无助的,所以要预处理掉。以下是使用Java删除停用词。同时,可将该程序改写成取高频词和低频词的程序。Java去除英文停用词package clouddataprocess;import java.io.BufferedReader...原创 2018-06-13 20:06:24 · 3545 阅读 · 0 评论 -
面向消费者的自动文本分析(Automated Text Analysis for Consumer Research) 2017 JCR 论文阅读
文章简介Humphreys A, Jen-Hui Wang R. Automated Text Analysis for Consumer Research[J]. Journal of Consumer Research, 2017. 来自于管理类顶刊 Journal of Consumer Research,2017年发表的。概述性文章,讲述文本分析的流程,需要注意的问题,以及在消费者研...原创 2018-06-14 15:15:02 · 1631 阅读 · 0 评论 -
2018 A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews 稀疏主题模型学习笔记
论文来源文章介绍模型及推理关于源码论文来源Rakesh V, Ding W, Ahuja A, et al. A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews[C]//Proceedings of the 2018 World Wide Web Confere...原创 2018-07-09 17:22:56 · 1120 阅读 · 0 评论 -
使用deeplearning4j训练Doc2Vec(文档向量)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。在上一小节中,本人介绍了使用DeepLearning4J训练得到词向量(https://blog.csdn.net/qy20115549/article/details/82152462)。本篇主要介绍给定任意文本数据(分词后的数据),如何使用Deep...原创 2018-08-28 21:30:37 · 3003 阅读 · 0 评论 -
使用deeplearning4j训练Word2Vec(Java操作)
DeepLearning4J(DL4J)是一套基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。本文训练的数据集是deeplearning4j中的自带数据集,数据表示如下: 对应的Word2Vec操作程序如下:package org.deeplearning4j.examples.nlp.word2vec;import org.deeplearning4j....原创 2018-08-28 18:23:53 · 4474 阅读 · 2 评论 -
gensim实现Doc2Vec和Word2Vec
在处理文本时,经常需要将其转化成向量的形式,然后去做分类和聚类,而word2vec和doc2vec方法是一种较为常用的方法。 在python的gensim包中实现了这两种算法,为了以后个人使用方便,这里写成博客,以供翻阅。 以下为数据集的形式: 每一行的每一个数字表示词的编号,这里也可以用具体的词。且数据保存在工程的/data/test.txt文本里。以下为Doc2vec的处理程...原创 2018-08-28 10:56:37 · 2697 阅读 · 3 评论 -
Java如何读取和操作上G文本数据
在处理文本时,经常遇到超过1g存储的数据,直接简单的读取,可能遇到java空间不足的问题,为解决此问题,可将大文本数据按照行进行切分为很多块,并将每一块存储为一个文本。然后单独去操作每一个小文本,比如,我所做的分词,便是利用此原理。所要分词的文本是几个G,所有我将这样一个大文本切割成一个一个的小文本,接着对每个小文本进行分词。public class BigDataRead { /*原创 2016-10-11 09:13:31 · 3750 阅读 · 0 评论 -
TF-IDF的java实现(权重排序,可用来处理大数据集)
TFIDF的主要思想程序使用程序结果TFIDF的主要思想TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频原创 2017-01-07 14:09:32 · 6905 阅读 · 3 评论 -
基于Kmeans算法的文档聚类(包含Java代码及数据格式)
介绍给定多篇文档,如何对文档进行聚类。本博客使用的是k-means聚类方法。关于k-means网络上有很多资料介绍其算法思想和其数学公式。针对文档聚类,首先要讲文档进行向量化,也就是说要对文档进行编码。可以使用one-hot编码,也可以使用TF-IDF编码,也可以使用doc2vec编码等,总之,要将其向量化。本人最近做文本分类时,使用的一个baseline就是k-means文档聚类。其...原创 2018-05-31 21:01:54 · 5986 阅读 · 11 评论 -
Targeted Topic Modeling for Focused Analysis(TTM的理解)
问题描述问题定义最简单的实现方法作者提出的模型代码本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人,允许禁止转载。本文给原文作者发了几封邮件,询问一些程序及推理方面的疑问,原文作者都悉心回答了,再次表示衷心感谢。问题描述这篇文章发表在16年ACM会议上,主要是对主题模型的改进。从文章的题目可以看出,该模型可原创 2017-04-19 21:48:23 · 1688 阅读 · 0 评论 -
sparseTM的公式理解
本篇的论文来自:Wang C, Blei D M. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process[C]//Advances in neural information processing systems. 2009: 1982-1989.本博客作者:合肥工业大学 管理学院 钱洋 e原创 2017-05-08 22:20:31 · 862 阅读 · 2 评论 -
Sentence-LDA的介绍及程序
Sentence-LDA的相关论文:Jo Y, Oh A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011: 81原创 2017-08-16 20:36:40 · 4745 阅读 · 1 评论 -
Indian Buffet Process(印度自助餐过程)介绍
简介无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet proc原创 2017-11-14 17:30:43 · 7041 阅读 · 0 评论 -
基于多源文档片段的神经网络排序模型(Neural Ranking Models with Multiple Document Fields)
文章来源Zamani, Hamed, Neural Ranking Models with Multiple Document Fields.18年Web Search and Data Mining(WSDM)会议上的一篇文章,主要是使用神经网络对文本进行处理,将其应用到搜索引擎检索任务之中。以下,是个人看文章的笔记,由于对神经网络还不是很了解,如有问题,还望见谅。文章内容原创 2018-01-30 16:31:56 · 628 阅读 · 0 评论 -
Dirichlet Multinomial Mixture Model做短文本聚类
论文来源Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.原创 2018-03-03 11:31:16 · 3911 阅读 · 2 评论 -
基于狄利克雷-多项式分布做文档聚类代码(dirichlet multinomial mixture model)
论文来源Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.原创 2018-03-05 19:35:04 · 3944 阅读 · 0 评论 -
主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。论文来源Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transactions of原创 2018-03-07 20:17:50 · 4126 阅读 · 1 评论 -
Gaussian LDA(高斯LDA)简介
论文来源Das R, Zaheer M, Dyer C. Gaussian lda for topic models with word embeddings[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joi原创 2018-03-12 16:21:12 · 3629 阅读 · 0 评论 -
Dirichlet Process和Hierarchical Dirichlet Process的理解(PPT)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。原创 2018-03-23 09:59:48 · 4790 阅读 · 1 评论 -
LFDMM源码剖析(融入词向量的概率图模型)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人允许禁止转载。论文来源Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transacti...原创 2018-03-24 10:40:58 · 1693 阅读 · 1 评论 -
Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读
论文来源Zuo Y, Wu J, Zhang H, et al. Topic modeling of short texts: A pseudo-document view[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2016:原创 2018-04-10 10:49:38 · 1688 阅读 · 1 评论 -
三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning
文章来源Nguyen V A, Boyd-Graber J, Resnik P, et al. Modeling topic control to detect influence in conversations using nonparametric topic models[J]. Machine Learning, 2014, 95(3): 381-421. 来自于机器学习顶级期刊《Mac原创 2018-04-17 09:48:29 · 2580 阅读 · 0 评论 -
主题模型聚类匹配2018TKDE阅读笔记(Topic Models for Unsupervised Cluster Matching)
论文来源 Iwata T, Hirao T, Ueda N. Topic Models for Unsupervised Cluster Matching[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(4): 786-795.作者是日本人Iwata T,也是个机器学习大牛,每年都有一系列的文章出来,还是很厉害的。原创 2018-04-21 17:16:37 · 2134 阅读 · 1 评论