自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 2020/8/23-Leetcode-28

主要关注题解中,将KMP算法转为动态规划的方法。在该方法中,字符串匹配的过程,被描述为确定转态转换的问题。利用动态规划,对KMP算法重新解读。0. 前期知识:chr(int) -> charord(char) -> int动态规划过程:...

2020-08-16 17:06:10 168

原创 IDEA导入jar包

## Note 一下:IDEA导入包的常规操作应该是“File” >> “Project Structure” >> "modules" >> "Dependencies" >> + "jar.....”. 如果一直不成功,比如一直“empty library”,依赖包不能正常使用?**直接使用 XX.iml 文件导入***比如:*--

2019-03-18 11:19:55 1151

原创 变分贝叶斯学习

记录两个学习档案:https://www.leiphone.com/news/201703/cUbfLxKPgy7ecqku.html https://www.leiphone.com/news/201703/djm3u9LLqylr3C8N.html?type=preview希望有生之年能够看懂吧!!更希望可以看懂Streaming Variant Bayes。我现在是概率贝叶斯学派...

2018-09-28 08:58:31 1367

翻译 SDA(Streaming,Distributed,Asynchronous) Bayes

SDA贝叶斯框架包括三个部分(内容),分别是流式计算,分布式处理和异步更新的贝叶斯推断模型。为了可以满足普遍性,需要本地化的近似函数A,给定了全局参数先验和并实现了A,SDA框架就可以运行了。那么,分别介绍这三个主要内容吧! 1, Streaming updating考虑贝叶斯规则,假设数据C1={x1,x2,...,xs}:P(Θ1|C1)=先验*释然/观测量假设我们的数据是批量...

2018-09-28 08:58:27 305

翻译 Streaming Gibbs Sampling for LDA (SGS)

主要两个重点,分布式和流处理,其模型主要的思想和SVB是相同的, 流:后验作为先验,前n-1的数据后验作为n的先验,且只需要保存Nkv的值,加到β上。另有衰减参数, 分:参数服务器模式,Nkv作为全局参数,保存在中心服务器,worker计算结果后,返回并更新参数,异步更新,计算用到Nkv和Wt,以及α先验。 话题模型中需要的主要三个参数,分别是Nkd,Nkv,Nk,其中Nk...

2018-09-28 08:58:23 205

翻译 Variational inference

 bayes推断最麻烦的就是对概率密度的计算,相比较于MCMC算法,VI具有更快的速度,也更能理解——我们需要近似出概率密度。首先假象一个密度簇,然后找到对应的组成部分,接近目标,KL散度用来评估,需要不断优化。 在贝叶斯统计中,未知量的计算都可以看作(涉及)后验概率密度的推断,p(z, x) = p(z)p(x | z). 先验和似然的乘积得到全概率。 对比采样,我们的主要实...

2018-09-28 08:58:20 248

翻译 Improving Topic Models with Latent Feature Word Representatio

Improving Topic Models with Latent Feature Word Representatio 先介绍了LDA和DMM两种模型,其中DMM比较独特,因为他假设文档只有一个话题,即单个文档中所有单词的多项式分布是一致的(对应于一个话题),所以生成过程是,先为文档生成话题,然后基于该话题分布生成单词。Θ是K维的向量,而不是K*D的矩阵。 这篇文章结合预先训练...

2018-09-28 08:58:13 438

翻译 词共现网络

今天看三篇文章:一,实时词共现的微博话题发现话题分布的两种方法,LDA(概率)和聚类。其中,wordgraph就是聚类方法,结合single-pass过程,基于信息的流时序特征和上下文相关度,探听新话题的产生和话题的演变。这篇文章基于图模型,词共现图和single-pass思想结合。词共现网络的构建基于单词x,y同时出现在一句话中,即现有单词集合和词关系矩阵,结合时间系数权重计算。构造...

2018-09-28 08:58:07 9904

翻译 Generating Adversarial Malware Examples for Black-Box Attacks

Generating Adversarial Malware Examples for Black-Box Attacks 用生成对抗网络生成可以不被黑盒判别器识别的恶意软件。 恶意软件用M维的binary向量表示,每个维度表示API的调用(0,1分别表示是否调用) 这里用到dual-training的思想(大概吧,毕竟文中没有说明),在生成过程中首先加入噪声,结合其他操作...

2018-09-28 08:57:48 634

翻译 Temporal Context-Aware Model

Temporal Context-Aware Model在前面,这篇论文提到文章“TimeUserLDA”model,并指出模型assumes that user posting behaviors are influenced by both user interest and global topic trends,即讲用户的post行为也分为两个因素,但是模型将两类话题映射到同一个潜在话...

2018-09-27 10:54:07 396

翻译 Targeted Topic Modeling for Focused Analysis

Targeted Topic Modeling for Focused Analysis和KDD16的psudo-topic的短文本话题建模方法类似,主要为了解决稀疏性问题。目前:工作的中心是全数据中的全话题的全局分析;缺点:需要特定方向的细节分析(targeted aspects)提出:targeted topic model - 基于兴趣(目标)的细粒度话题分析 问题描...

2018-09-27 10:38:19 267

翻译 JST :Joint sentiment topic model & ASUM :Aspect sentiment unification model

Joint sentiment /topic modelJST模型从文本检测情感和主题 之前的工作缺点:基于机器学习的情感分类需要大量的人工标记; 一个领域训练的情感分类模型不能很好地应用于另一个领域; 主题/特征检测和情感分类经常分开来进行,忽略了它们的相互依赖性。JST 同时建模话题和情感 情感分析可以分为三类:积极,消极和neutral。更细粒度的可以分析单个用户对特定it...

2018-09-27 10:29:50 3353 3

翻译 Enhancing Sentiment Analysis Using Community Detection

利用关键词{community,sentiment}作为关键词,只能检索到这三篇文章,所以可以简单的认为这并不算一个非常热门的研究问题,这里简要对这三篇文章进行阅读。 第一篇:Community detection seeks to find groups of associated individuals within networks, and sentiment analysis a...

2018-09-27 10:25:07 174

翻译 sequence topic model

 probabilistic topic model for sequence data 考虑到bag of word 的单词顺序可交换性的限制,所以考虑存在话题的依赖关系,也即是单词的话题分配受到前一个单词的影响,提出了sequence topic model,参数和模型的优化过程如下图:a为原始的LDA,单词的话题分配是独立的;b为token-bigram,即双词话题构成,即单...

2018-09-27 10:24:21 391

翻译 Identifying and Tracking Sentiments and Topics from Social

 作者提供了数据和代码(不是很多):https://goo.gl/uee3QK按照惯例,不解释技术细节,只介绍文章的问题和方法,先看图:location-based dynamic sentiment-topic model (LDST)——考虑了地点,情感和话题的动态模型(动态主要提现在地点的变化,引起的情感和话题的变化)论文假设存在作者,地点和文档集合,对于特定时间戳,利用...

2018-09-27 10:21:03 160

翻译 Open Domain Targeted Sentiment

看文献不会虚度时间论文The intuition behind this work is that sentiment expressed towards an entity, targeted sentiment, may be viewed as a span of sentiment expressed across the entity. 灵感在于,对于某个目标实体的情感表达会跨越...

2018-09-27 10:19:34 419

翻译 结合语义和关联的aspect抽取优化

:lifelong learning的aspect抽取工作研究:Improving Opinion Aspect Extraction Using Semantic Similarity and Aspect Associations 使用DP(dependency)的语法规则的挖掘方法,有很大的提升空间在于,无法同时兼顾precision和recall,所以提出利用语义相似性和关联关...

2018-09-27 10:19:27 496

翻译 Incorporating Tweet Relationships into Topic Derivation

这篇文章的精髓,大约在这几句话:(胜率tweet相关性判断部分)While expanding the content of the tweets using external documents seems to be ideal.....expanding the tweet content by adding the words from the related tweets(解决稀疏性...

2018-09-27 10:19:19 106

翻译 LDA学习

收藏:模型建立:http://blog.csdn.net/happyer88/article/details/45936107变量求解:http://blog.csdn.net/happyer88/article/details/46405399/变分推断:http://blog.csdn.net/happyer88/article/details/46438111/模型参数:ht...

2018-09-27 10:19:11 264

翻译 continual learning

关注持续学习,终身学习和永动学习。 一、持续学习(https://deepmind.com/blog/enabling-continual-learning-in-neural-networks/)持续学习通过任务执行结果(参数学习)的增量记忆(模拟大脑),将知识应用于新的任务中。大脑的记忆分为缓慢记忆和突出强化,重要任务的神经元连接不会被覆盖。同理,在神经网络中,在学习任务之后,我们...

2018-09-26 09:59:57 5206

翻译 short text model

北航的同行,去年连续发了三篇论文,都是和短文本处理相关的。链接分别是:第一篇,用到co-occurrance第二篇1  , 第三篇,用替代文本(伪文档)代替话题和短句 第一篇,将短文本和场文本的分类区别开:A topic model for co-occurring normal document  and short texts其基本思想是,短文本除了有基础话题(fo...

2018-09-26 09:55:30 754

翻译 What is aspect based sentiment analysis?

假设我们开设了一家旅馆,我们想知道是什么原因让客人流失了,所以进行了如下的调查:如何很难直接去评价正负,我们分析不同的方面(aspect),帮助我们找到原因。如图。At the end of the day numbers matter, who cares what the review speak about, get those numbers of positive or ne...

2018-09-26 09:48:04 637

翻译 Incorporating Word Correlation Knowledge into Topic Modeling

开始没有仔细看的时候,也不懂MRF的应用,学习细节才知道重点。论文简单描述MRF-LDA的场景:首先,假设话题的粉笔θ,以及单词分布β都服从狄利克雷分布,每个单词具有话题标签z。提取单词的关联关系,主要是语义的相似性,用来学习话题的一致性。所以用到了MRF,在潜在话题层。给定文档d和N单词,判断单词对(根据外部知识)创建无向边连接他们的话题标签,获取图G和单词标签。如下图的5个节点,4条边...

2018-09-26 09:44:37 198

翻译 life event identification using semantic and syntactic graph

很久没有看论文了,今天看一下“life event identification using semantic and syntactic graph”。 问题:generate brief automated biographies for the users based on their generated content困难: amount,mention a life even...

2018-09-26 09:40:38 169

翻译 personal medical event extraction

 利用用户医疗文本挖掘用户个人疾病相关的事件,这个系统,流水线模式:1,时间提取 -》 event extraction2,时间线结构生成 -》 temporal tagger and resolver首先是基于term的相关文本探测和过滤,然后根据相关文本对term进行优化(互相吸收过滤),最后进行聚类(用到lda,word2vec)等方法;然后是时序的生成,采用了时序表达的...

2018-09-26 09:37:40 177

翻译 An Event Extraction Model based on Timeline and User analysis

论文 SIGir14的一篇短文:结合term权重和用户的重要程度的话题模型,用以事件的提取:算法上,将term权重(卡方验证和频率)与单词采样结合;用户得分(HITS的重要用户和活跃用户)和话题采样结合。思路很直观,效果也还可以,考虑到这个问题:是否可以将用户影响力和话题建模结合起来。 引用文献中:ACL`12的文章“Finding Bursty Topics ...

2018-09-26 09:36:35 133

翻译 A Cluster-Based Topic Model-theis

将文档的群组信息,也结合到话题建模的过程中,考虑到多层次的LDA,构成了文档、群组和语料库的话题分布层次。当群组的个数已知的时候,群组生成是c维度的概率向量,联合分布概率可以表示为:单词w,话题z和群组c:这里Nwt为单词分配为话题t的个数,Ntd为文档中话题t的个数,Nc为群组c中的话题个数。可以知道,这里每个文档只有一个群组标签,所以有生成概率为:所以得到分布:且:...

2018-09-26 09:20:20 177

翻译 Personalized Time-Aware Tweets Summarization

一篇看了三天的文章,不是因为文章本身的难易程度,而是我个人的执行效率太慢了。论文地址首先,这篇文章的问题是要对用户的发表的短文生成摘要,选择最具代表性的推文,其实关注用户兴趣的变化和迁移。为了实现,(a) novelty (b) coverage 和 (c) diversity 等要求,结合了协同过滤的方法和用户兴趣来源于“社交圈”的假设。“社交圈”说明类似于“ego network”,即...

2018-09-26 09:18:02 214

翻译 Malicious URL Detection using Machine Learning

论文地址:a surveyURL或者说恶意网站,通过劫持用户信息、发布垃圾信息或诱导用户受骗等方式,使用户收到经济损失,或者信息泄露。所以需要探测到。传统方法利用黑名单的方式,可以通过快速查询判断链接的好坏,同时不断添加新的恶意url信息,然而,这种方式过于被动,因为URL可以随时生成,而黑名单的却不能及时更新,而且也不能保证完全的覆盖。所以需要采用机器学习的方法进行分类,探测。 利用...

2018-09-26 09:11:07 1255

翻译 Time-Aware User Identification with Topic Models

这篇文章的应用场景(问题)是针对当个账号对应多个用户的情况,现实的举例为网络电视中,家庭账号,所有成员使用。如果可以识别出用户,可以可以从基于账号的服务改变为基于用户的服务——学习系统需要知道用户数量,但是不知道哪个用户在线(active)——作者基于LDA模型,联合构建用户的item consumption profile和time consumption profile,从而识别用户。 ...

2018-09-21 16:09:57 170

翻译 Learning representation for personalization

IR-web search 领域的用户表示,考虑用户检索的主题和行为分析(后者很有参考意义) 潜在变量模型,表示用户信息,同时构建(build)用户数据(user profile)有助于基于服务的个性化。即结合了用户的话题兴趣和检索任务行为(coupling user topical interests with their search task behavior)——基于任务的用户...

2018-09-21 16:09:00 229

翻译 Concept based short text classification for topic drifting detection

处理短文本的主要两种思路:1,基于隐藏特征或统计信息的特征空间拓展;2,基于外部资源 本文提出的方法依然是基于第二种,引入外部数据 利用新的数据概念图谱数据库,对短文本信息进行概念拓展,基于概念特征空间,对文本进行聚类,结合集成学习的方法训练分类器,聚类作为话题研究,话题的相似度判断话题的迁移。 总结:思路和方法都很清楚,虽然觉得内容并不算很多,但是其中的概念图谱数据库Pr...

2018-09-21 16:08:34 239

翻译 A Non-Parametric Topic Model for Short Texts Incorporating&nb

BTM 模型的变种,思路是解决BTM的两个基本问题:1,话题个数不确定,需要手动设置;2,没有区分biterm的类型,即general和topical话题。采用的方法有为:对于问题1,利用中国餐馆问题,crp,动态的生成话题(类似HDP?);对于问题2,通过PMI,单词对互信息量评价单词的相关性,其假设为topical单词的互信息量更高。——借鉴意义:话题确实需要细化,个数?类型?——提到...

2018-09-21 16:06:59 289

翻译 BiasWatch: A Light weight System for Discovering and Tracking Topic-Sensitive Opinion Bias in Soc

作者提供了一个很新鲜的分析问题:研究用户对话题的偏向性,从而发现潜在的话题发起者和支持者(反对者)。和情感还是有一些差别的。可以用于用户推荐等过程。主要利用了文本和关系特征。 三大组件:作者提出的系统主要包括了三个部分,其一是发现偏置的anchors,然后发现传播的bias,最后嵌入两者,得到regular用户的偏好。首先,在发现anchor时,选择利用hashtag,给定seed,...

2018-09-21 16:06:20 133

翻译 graph-embedding poi recommendations

将用户-poi,poi-poi图进行嵌入学习,从而可以在低纬空间对poi进行描述,完成下一个poi的推荐。最近在理解了KL散度的基础上重新对推导过程进行了分析,其中KL散度的理解主要基于交叉熵和信息熵的理解,根据 交叉熵和相对熵 和 KL散度 的介绍。通过对最短编码,或最小代价值的认知,也即损失最小的情况,某现象出现的概率和编码(信息总量,对概率倒数取log值)的乘积,交叉熵即为错误编码长度...

2018-09-21 16:03:11 578 1

翻译 Graph-based POI Embedding

依然是POI推荐问题,这里作者将POI推荐的向量学习抽象为异构的网络,从而融合了序列因素、地理影响、时序变化影响和语义影响,利用图嵌入技术将这些信息降到低维空间中。如图:POI-POI,POI-region,POI-time,POI-Word 分别被看作双向图处理,依次获取序列、地理位置、时间和语义信息。图1,权重如GME-s,在时间片中的共现次数;图2,存在置为1;图3,根据频次设置权重;...

2018-09-21 16:01:10 837 1

原创 stanford-parser-full-2013-06-20

 parser:corenlp: standford的语法树是真的伤到我了,一直报告内存不足的问题,就算分配了Xmx64g都不够用的,尴尬,最后发现问题的原因,是因为我,在预处理的时候去掉了标点符号——》这样他就认为整个文档是一个句子了,所以导致内存的溢出问题。 后来在每段话后面添加了“.", 可以正常运行了,不知道结果会如何。command list in below...

2018-09-21 16:00:32 217

翻译 图嵌入survey

 读论文:HongYun Cai, Vincent W. Zheng, Kevin Chen-Chuan Chang: A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications. IEEE Trans. Knowl. Data Eng. 30(9): 1616-1637 (2018) ...

2018-09-21 15:59:55 387

翻译 BiNE:bipatite network embedding

bipatite 网络嵌入工作bipatite network 分别有两种节点集合,以及集合之间的连接(边)构成,即(U,V,E),其中E的边可以构成一个 |U| x |V| 的权重矩阵W。 BINE: 的contribution之一即同时区别了显式(explicit)和隐式(implicit)的关系。其中,显式的关系和LINE的一阶概率是一致的,采用了KL散度对节点的向量进行计算——...

2018-09-21 15:58:29 1077 1

翻译 Identifying and Tracking Sentiments and Topics from Social Media Texts during Natural Disasters

作者提供了数据和代码(不是很多):https://goo.gl/uee3QK按照惯例,不解释技术细节,只介绍文章的问题和方法,先看图:location-based dynamic sentiment-topic model (LDST)——考虑了地点,情感和话题的动态模型(动态主要提现在地点的变化,引起的情感和话题的变化)and Tracking Sentiments an

2017-11-24 16:23:09 195

lucene-7.2

lucene,kdkafdsfjadsfajsdl;faadkfsdfasdkfaksdkfadskfksdkf

2018-01-10

apache-lucene-analyzers.jar

cnmdkafdksfjadsfjadsl;ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffsdjkfjka

2018-01-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除