[置顶] 概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结(bibliography)第五...
阅读(37060) 评论(99)

[置顶] 概率语言模型及其变形系列(1)-PLSA及EM算法

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa...
阅读(55934) 评论(41)

[置顶] 概率语言模型及其变形系列(2)-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结第五篇:LDA Gibbs Sa...
阅读(53151) 评论(61)

[置顶] 文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝...
阅读(30754) 评论(18)

Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现

1. 概要 Gradient Tree Boosting (别名 GBM, GBRT, GBDT, MART)是一类很常用的集成学习算法,在KDD Cup, Kaggle组织的很多数据挖掘竞赛中多次表现出在分类和回归任务上面最好的performance。同时在2010年Yahoo Learning to Rank Challenge中, 夺得冠军的LambdaMART算法也属于这一类算法。因此Tree Boosting算法和深度学习算法DNN/CNN/RNN等等一样在工业界和学术界中得到了非常广泛的应用。 ...
阅读(1233) 评论(0)

CIKM 2016 aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model

中文简介:本文针对当前深度学习模型包括基于CNN或者LSTM的模型适用于Answer Sentence Selection这个task时必须额外combine 传统的text matching feature的问题,提出了一个attention based neural matching model。该模型提出使用value-shared weighting scheme以及基于attention...
阅读(1082) 评论(0)

ICTIR 2016 Analysis of the Paragraph Vector Model for Information Retrieval

中文简介:本文是对前面的SIGIR‘16工作的拓展, 主要是对PV model适用于IR的task时的三方面的问题进行了更加深入的分析,并且提出了针对这三个问题的相应改进。论文出处:ICTIR' 16英文摘要:Previous studies have shown that semantically meaningful representations of words and text can...
阅读(927) 评论(0)

SIGIR 2016 Improving Language Estimation with the Paragraph Vector Model for Ad-hoc Retrieval

中文简介:本文对如何基于Paragraph Vector model改进Ad-hoc Retrieval task进行了分析,主要针对IR的场景提出了对PV model的三方面的改进。实验表明,改进后的模型进行检索的效果超过了基于topic model增强的LM的效果。论文出处:SIGIR'16英文摘要:Incorporating  topic  level  estimation  into...
阅读(492) 评论(0)

ICDM 2014 Paper ShellMiner Mining Organizational Phrases in Argumentative Texts in Social Media

中文简介: 本文提出了概率生成模型 Shell Topic Model (STM)对社交论坛文本中的组织性短语(Organizational Phrases)和主题词(topical contents)进行建模分析,主要的应用有组织性短语的挖掘和文档建模。论文出处:ICDM‘14.英文摘要:Threaded debate forums have become one of the major so...
阅读(4406) 评论(0)

ECIR 2016 Paper Modelling User Interest for Zero-query Ranking

中文简介:本文对智能个人助理(如Google Now,Microsoft Cortana)中的信息卡片排序进行了研究,从user modeling的角度提出了三组排序特征:implicit feedback features, entity based user interests features以及user demographic features. 其中entity features的提取用...
阅读(4166) 评论(0)

ECIR 2016 Paper Beyond Factoid QA: Effective Methods for Non-factoid Answer Sentence Retrieval

中文简介:本文对non-factoid 问题的答案句子检索进行了研究,基于learning to ranking的框架,在传统文本匹配特征的基础上提出了给予语义匹配和上下文信息的特征,并且证明了这些特征对于答案句子检索的有效性。本文使用TREC GOV2数据集,并且开源了code和标注数据集,下载链接参见论文脚注。论文出处:ECIR'16.英文摘要: Retrieving finer graine...
阅读(3688) 评论(0)

CIKM 2013 Paper Modeling interaction features for debate side clustering

中文简介:本文对如何对网上论坛讨论中用户交互关系进行统计建模分析进行了研究。论文出处:CIKM‘13.英文摘要: Online discussion forums are popular social media platforms for users to express their opinions and discuss controversial issues with each othe...
阅读(2493) 评论(0)

NAACL 2013 Paper Mining User Relations from Online Discussions using Sentiment Analysis and PMF

中文简介:本文对如何基于情感分析和概率矩阵分解从网络论坛讨论中挖掘用户关系进行了深入研究。论文出处:NAACL'13.英文摘要: Advances in sentiment analysis have enabled extraction of user relations implied in online textual exchanges such as forum posts. Howev...
阅读(2297) 评论(0)

COLING 2014 Paper Generating Supplementary Travel Guides from Social Media

中文简介:想知道如何基于雅虎问答社区帖生成旅行指南吗?本文介绍了相关统计模型和技术。论文出处:COLING’14英文摘要: In this paper we study how to summarize travel-related information in forum threads to generate supplementary travel guides. Such summarie...
阅读(2361) 评论(0)

CIKM 2013 Paper CQARank: Jointly Model Topics and Expertise in Community Question Answering

中文简介: 本文对如何在问答社区对用户主题兴趣及专业度建模分析进行了研究,并且提出了针对此问题的统计图模型Topics Expertise Model.论文出处:CIKM‘13.英文摘要: Community Question Answering (CQA) websites, where people share expertise on open platforms, have become...
阅读(2501) 评论(0)

LeetCode Unique Binary Search Trees

Given n, how many structurally unique BST's (binary search trees) that store values 1...n?For example,Given n = 3, there are a total of 5 unique BST's. 1 3 3 2 1 \ /...
阅读(2135) 评论(0)

LeetCode Implement Stack using Queues

Implement the following operations of a stack using queues.push(x) -- Push element x onto stack.pop() -- Removes the element on top of the stack.top() -- Get the top element.empty() -- Return whether...
阅读(2364) 评论(0)

LeetCode Find Minimum in Rotated Sorted Array II

Follow up for "Find Minimum in Rotated Sorted Array":What if duplicates are allowed?Would this affect the run-time complexity? How and why?Suppose a sorted array is rotated at some pivot unknown to yo...
阅读(2146) 评论(0)

LeetCode Find Minimum in Rotated Sorted Array

Suppose a sorted array is rotated at some pivot unknown to you beforehand.(i.e., 0 1 2 4 5 6 7 might become 4 5 6 7 0 1 2).Find the minimum element.You may assume no duplicate exists in the array.思路分析...
阅读(1946) 评论(0)
279条 共19页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1262480次
    • 积分:12790
    • 等级:
    • 排名:第1018名
    • 原创:241篇
    • 转载:37篇
    • 译文:1篇
    • 评论:744条
    我的微博
    最新评论