HFUT_qianyang-CSDN博客

原创 Java使用Openimaj构建视觉词袋模型

文章目录视觉词袋模型Java实现本文作者：合肥工业大学管理学院 qianyang email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许，禁止转载。视觉词袋模型构建视觉词典的一般思路是：(1)抽取所有图片的关键点；(2)对所有关键点进行聚类；（3）针对每张图片每个关键点对应的簇标签，进行统计(数数)，获取频率，进而构建视觉词典。抽取关键点主要使用的算法是SIFT。该算法是深度学习之前做视觉处理的一种经典算法，对应的论文为：Lowe D G. Distinct

2020-11-05 10:40:35 993 1

原创如何直观的看出主题模型学习结果的好坏

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录主题模型的评估指标直观的展示如何构建类似的矩阵参考论文主题模型的评估指标在主题模型中，常见的评估指标包括Perplexity（即困惑度）以及Coherence Score、Topic Consensus等。而在计算Coherence Score有几种方案：其一是基于点互信息的，如下所示：使用这种方式，需要第三方数据来评估，如这里提及的Wi

2020-07-07 09:08:33 1714 1

原创 Origin绘制散点图个性化设置散点颜色

背景在做聚类时，经常要对结果进行可视化，如对不同类别的点设置不同的颜色以达到更好的展示效果。如使用word2vec之后，采用t-sne对数据所做的聚类效果，如下图所示。此图来源：http://www.360doc.com/content/19/0706/11/52645714_847036805.shtml具体绘制流程数据如下图所示：其中，第1和2列为散点图的横坐标和纵坐标，第4列(D(Y)列)为数据点的标签，第5列（E(Y)）为数据点的颜色标签。选中数据表中的第1和第二列，点击PLot

2020-06-25 10:53:11 53640 6

原创零膨胀负二项回归模型的使用 R语言

简介近期，需要使用零膨胀负二项回归模型。因此，找到R语言中的一个包：pscl。首先，使用Rstudio下载此包。install.packages("pscl")该软件发表于下面的期刊。Zeileis A, Kleiber C, Jackman S. Regression models for count data in R[J]. Journal of statistical software, 2008, 27(8): 1-25.详细使用可以参考：https://cran.r-project

2020-05-19 10:06:17 11817 4

原创视觉感知在营销方面的应用(论文阅读笔记)

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录论文来源论文内容论文来源最近，打算开始做视觉方面的研究，看了一篇视觉感知在营销方面应用的论文。该论文总结了一个概念性的框架，主要从解构视觉感知视角做的一个综述。论文来源于管理类顶刊JAMS:Sample K L, Hagtvedt...

2020-01-15 09:44:18 973

原创带你入门Java网络爬虫

爬虫初始记得，在本科时，因为毕业论文需要不少网络上的用户的问答数据。最开始，我并没有搞过网络爬虫，只能利用关键词搜索的方式，找到相关的数据，然后一条一条复制。你可能觉得这样很傻，但不得不承认这确实我最初的操作方式，很艰难，累的手疼。后来需要做网站系统，系统使用的是成熟的轻量级网站框架Spring MVC，当时需要将网络爬虫集成进来。Java开发的系统不太好集成Python的网络爬虫。不得已，学...

2019-12-06 07:15:28 2996 3

原创 Java共现矩阵的构建(用于社交网络结构分析)

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录背景Java实现共现矩阵程序运行结果关于社区发现算法背景最近，在做研究的时候，需要使用到Louvain社区检测算法(Louvain Community Detection)。而该算法的输出是节点-节点或节点-节点-权重。如节点-节点的...

2019-09-27 15:59:59 3111

原创 POST提交JSON字符串实战项目(JAVA网络网络爬虫)

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录项目简介(Introduction)项目特点POST提交JSON数据x-csrf-token解决随机切换User Agent简单的数据库操作项目简介(Introduction)完整项目对应的github链接为：https://gith...

2019-08-04 08:14:54 3644

原创 Java下MySQL易用处理工具(支持XML/JavaBean)

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录项目代码地址项目简介依赖jar包下载项目包含的内容使用案例执行SQL语句（创建数据表）查询一列数据更新数据表查询多列向数据表插入集合数据XML配置多节点数据库和表项目代码地址https://github.com/soberqian/M...

2019-07-22 08:16:53 1162 3

原创双稀疏主题模型(Dual-Sparse Topic Model)编程实现中的细节 Java

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录论文来源相关介绍单稀疏模型双稀疏模型模型推理Java编程实现的细节论文来源Lin T, Tian W, Mei Q, et al. The dual-sparse topic model: mining focused topics ...

2019-07-04 10:17:19 1518

原创 Partially Labeled Dirichlet Allocation(PLDA)算法的理解与编程细节(Java)

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录论文来源模型论文来源Ramage D, Manning C D, Dumais S. Partially labeled topic models for interpretable text mining[C]//Proceedin...

2019-06-24 22:32:47 1375 1

原创 HDP(层次狄利克雷过程)算法代码实现细节梳理（Java）

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录HDP简介有向图表示CRF的关键HDP的采样编程角度解读采样桌子采样主题完整代码参考HDP简介Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related g...

2019-06-23 10:42:09 7930 3

原创变分推断中的ELBO(证据下界)

变分推断简介变分推理的目标是近似潜在变量(latent variables)在观测变量（observed variables）下的条件概率。解决该问题，需要使用优化方法。在变分推断中，需要使用到的一个重要理论，是平均场理论，读者可以参考我的另外一篇博客：https://qianyang-hfut.blog.csdn.net/article/details/86644192变分推断等价于最小化...

2019-06-20 20:36:21 51461 6

原创理解偏差和方差(Bias-Variance)的Tradeoff

文章目录简介偏差（Bias）与方差（Variance）的概念过拟合和欠拟合Bias-Variance DecompositionGBDT 和 RF参考简介当在讨论预测模型时，预测的误差可以分解成两个子部分，即由偏差(Bias)引起的误差和由方差引起的误差。那么，模型相当于是在最小化偏差和方差之间权衡。理解Bias-Variance Tradeoff将有助于建模，进而避免过拟合和欠拟合。偏差（...

2019-06-13 10:12:39 2583

原创贝叶斯分层回归模型的推理、EM求解和Java编程

模型如下为模型：这个模型中，参数和协方差服从正太逆Wishart先验。根据模型，给出所有变量的联合似然，即：公式推理因变量和权重的联合概率分布可表示为：求对数：其中，EM求解令：则：编程下面，给出了EM算法迭代的核心代码：/**EM UPDATE * @author Qianyang * ****/public static Map<In...

2019-06-11 09:33:29 3299

原创 Labeled LDA(有监督)主题模型的理解、推理与编程

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 。以下内容是个人的论文阅读笔记，内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录算法来源算法简介背景Labeled LDA模型参数学习编程实现算法来源这个算法来源于：Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervis...

2019-06-04 16:15:33 10817 3

原创 Collaborative topic modeling(推荐)算法实现中的大数组问题

问题背景最近，在使用Java实现一个个性化推荐算法时，遇到了非常常见的问题。实现的算法为：Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD international conference on Kn...

2019-05-31 17:39:53 1070

原创 Java中Math3 各种随机数生成器的使用(Random Generator)

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录背景python中numpy生成随机数产生一组随机数产生二维随机数归一化随机数标准正太分布随机数多元正太分布随机数Java中math3产生各种随机数背景在编写机器学习算法时，经常需要对各类参数进行初始化，例如一些使用变分推断算法的模型。无论是在...

2019-05-29 22:11:44 4654

原创 Collapsed Variational Inference(Collapsed变分推断)算法以LDA推导为例

简介Collapsed Variational Inference(CVI)来源于下面这篇文章：Teh Y W, Newman D, Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation[C]//Advances in neural information ...

2019-02-16 11:14:53 1900 1

原创指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录指数分布族的概念典型分布转化Bernoulli分布Poisson分布Gaussian分布多元Gaussian分布Multinomial分布变分推断应用参考内容指数分布族的概念指数分布族是一系列分布的统称，包含连续和离散的相关分布。例如，正太分布...

2019-02-14 11:25:04 19176 4

原创变分推断之高斯混合模型(案例及代码)

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。案例来源本博客讲解的案例来源于于Journal of the American Statistical Association期刊(顶刊)上的内容：Blei D M, Kucukelbir A, McAuliffe J D. Variational i...

2019-01-29 19:15:47 15970 9

原创变分推断以及在概率图模型中的应用

变分推断以前都是搞Gibbs采样，最近找国外导师的时候发现有必要学习一下变分推理。平均场理论来源于物理学，是一种研究复杂多体问题的方法，将数量巨大的互相作用的多体问题转化成每一个粒子处在一种弱周期场中的单体问题。如果将其应用到图模型中，可以将相互作用的多体看成相互作用的变量：变分贝叶斯推断LDA的变分推断Supervised topic models变分推断...

2019-01-25 12:36:25 10149 8

原创深度学习笔记--多层感知器以及BP算法

简介多层感知器，是指包含1个或多个隐层的前馈神经网络。前馈神经网络的特点：第0层为输入层，最后一层为输出层，中间层为隐层。整个网络无反馈，信号从输入层向输出层单向传播，整个网络为有向无环图。激活函数多使用连续非线性函数，如logistic函数。 3.激活函数多使用连续非线性函数，如logistic函数。可看成多层logistic回归模型的组合。具有解决复杂模式分类的能力，解决简单...

2019-01-15 21:54:53 20061 2

原创深度学习笔记--单层感知机原理及代码实现

python3实现简单的感知器下面使用python3实现or运算：#-*- coding:utf-8 -*-from functools import reduceclass Perceptron(object): def __init__(self, input_num, activator): ''' 初始化感知器，设置输入...

2019-01-11 10:31:29 3905

原创识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 。以下内容是个人的论文阅读笔记，内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章目录论文来源论文学习笔记论文来源来自于2018年Machine Learning期刊上的论文。Su S, Wang Y, Zhang Z, et al. Identifying and tracking topic...

2018-11-05 15:33:00 1358

原创 2018 A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews 稀疏主题模型学习笔记

论文来源文章介绍模型及推理关于源码论文来源Rakesh V, Ding W, Ahuja A, et al. A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews[C]//Proceedings of the 2018 World Wide Web Confere...

2018-07-09 17:22:56 1120

原创面向消费者的自动文本分析(Automated Text Analysis for Consumer Research) 2017 JCR 论文阅读

文章简介Humphreys A, Jen-Hui Wang R. Automated Text Analysis for Consumer Research[J]. Journal of Consumer Research, 2017. 来自于管理类顶刊 Journal of Consumer Research，2017年发表的。概述性文章，讲述文本分析的流程，需要注意的问题，以及在消费者研...

2018-06-14 15:15:02 1627

原创 LSTM模型结合LDA对序列性文本建模阅读笔记 2017 ICML

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。文章来源 Zaheer M, Ahmed A, Smola A J. Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequence Dat...

2018-06-04 10:40:26 3749

原创极大似然估计求解多项式分布参数

原因今天晚上，老师在看LDA数学八卦的时候，问我一个问题，如下图所示：这个多项式分布的参数，采用极大估计是怎么求的呢?当时想了想还真不知道，于是在网上找了资料，学习了一下，特此记录。公式推导很多情况下，假定一个变量XX有kk个状态，其中k>2k>2,每个状态假定的可能性为p1,p2,⋯,pkp_{1},p_{2},\cdots ,p_{k}，且∑ki=1pi=1\sum _{i=1}

2018-05-07 22:16:46 13238 6

原创主题模型聚类匹配2018TKDE阅读笔记（Topic Models for Unsupervised Cluster Matching）

论文来源 Iwata T, Hirao T, Ueda N. Topic Models for Unsupervised Cluster Matching[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(4): 786-795.作者是日本人Iwata T，也是个机器学习大牛，每年都有一系列的文章出来，还是很厉害的。

2018-04-21 17:16:37 2133 1

原创三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning

文章来源Nguyen V A, Boyd-Graber J, Resnik P, et al. Modeling topic control to detect influence in conversations using nonparametric topic models[J]. Machine Learning, 2014, 95(3): 381-421. 来自于机器学习顶级期刊《Mac

2018-04-17 09:48:29 2578

原创 Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

论文来源Zuo Y, Wu J, Zhang H, et al. Topic modeling of short texts: A pseudo-document view[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2016:

2018-04-10 10:49:38 1683 1

原创梯度下降、牛顿法、拟牛顿法详细介绍

最近，在看论文的时候，优化方法使用的是L-BFGS算法，所以我花了几天时间，看了梯度下降、牛顿法和逆牛顿法的原理及相关源码。以下我个人笔记，仅供大家参考。内容

2018-03-31 17:44:07 1182

原创 LFDMM源码剖析(融入词向量的概率图模型)

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。论文来源Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transacti...

2018-03-24 10:40:58 1693 1

原创 Dirichlet Process和Hierarchical Dirichlet Process的理解（PPT）

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。

2018-03-23 09:59:48 4784 1

转载蒙特卡罗方法采样算法

蒙特卡罗方法采样算法蒙特卡罗方法(Monte Carlo Simulation)是一种随机模拟(或者统计模拟)方法。给定统计样本集，如何估计产生这个样本集的随机变量概率密度函数,是我们比较熟悉的概率密度估计问题。求解概率密度估计问题的常用方法是最大似然估计、最大后验估计等。但是，我们思考概率密度估计问题的逆问题:给定一个概率分布p(x)，如何让计算机生成满足这个概率分布的样本。这个问

2018-03-21 10:00:58 48301 5

原创 Gaussian LDA（高斯LDA）简介

论文来源Das R, Zaheer M, Dyer C. Gaussian lda for topic models with word embeddings[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joi

2018-03-12 16:21:12 3623

原创主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)

本文作者：合肥工业大学管理学院钱洋 email：1563178220@qq.com 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。论文来源Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transactions of

2018-03-07 20:17:50 4123 1

原创基于狄利克雷-多项式分布做文档聚类代码(dirichlet multinomial mixture model)

论文来源Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.

2018-03-05 19:35:04 3939

原创 Dirichlet Multinomial Mixture Model做短文本聚类

论文来源Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.

2018-03-03 11:31:16 3909 2

Probabilistic Graphical Models - Principles and Techniques.pdf

MapDB的jar包

maven多个下载源

Java多线程网络爬虫(时光网为例)源码

libsvm32位64位

中文最全停用词表，个人整理（1704个）

空空如也