![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
小楼闻夜雨
转:生活最主要的还是感受,坚持是一种刻意的练习,不断寻找缺点突破缺点的过程,而不是重复做某件事情。
展开
-
关键短语生成调研
论文:Deep Keyphrase Generation讲解博客中文综述原创 2017-10-16 11:01:17 · 686 阅读 · 0 评论 -
开源项目kcws代码分析--基于深度学习的分词技术
转自http://blog.csdn.net/pirage/article/details/53424544分词原理本小节内容参考待字闺中的两篇博文:97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)如何深度理解Koth的深度分词?简单的说,kcws的分词原理就是:对语料进行处理,使用word2vec对语料的字进行嵌入,每个字特征为转载 2017-11-28 17:06:12 · 824 阅读 · 0 评论 -
深度学习笔记:encoder-decoder
转自http://blog.csdn.net/u014595019/article/details/52826423转载 2017-11-28 22:02:25 · 1215 阅读 · 0 评论 -
python调用jieba(结巴)分词 加入自定义词典和去停用词功能
转自https://www.cnblogs.com/zhangtianyuan/p/6875080.html 把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是jieba-0.38),把自己的自定义词典(选用,目的是为了分出原始词库中没有的词以转载 2017-11-20 00:15:32 · 12823 阅读 · 1 评论 -
Gensim Word2vec 使用教程
转自http://blog.csdn.net/Star_Bob/article/details/47808499**准备输入**Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表代码块例如:>>> # import modules & set up logging>>> import gensim, logging转载 2017-11-20 15:07:08 · 1136 阅读 · 0 评论 -
用gensim做LDA
Gensim LDA主题模型实验主题模型TopicModel:通过gensim实现LDA原创 2017-11-20 16:43:46 · 1121 阅读 · 0 评论 -
中文分词算法笔记
转自http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html中文分词算法笔记转载 2017-10-23 20:05:27 · 167 阅读 · 0 评论 -
Dirichlet分布与Multinomial分布
Dirichlet分布其实也是采样出一个值(向量),从这个意义上来说,它其实和其它分布并无太大不同?那为什么大家都说Dirichlet分布式分布的分布呢?因为Dirichlet分布出现的场景,总是用于生成别的分布(更确切地说,总是用于生成Multinomial分布)Dirichlet分布得到的向量各个分量的和是1,这个向量可以作为Multinomial分布的参数,所以我们说Dirichlet能转载 2017-10-20 16:58:10 · 1728 阅读 · 0 评论 -
知识表示学习相关研究
知识表示学习研究的目的是,如何表示知识,使其能够更好的利用它们来表征现实中的概念、事物。知识表示学习,面向知识库中的实体和关系的表示学习。将实体或关系投影到低维向量空间,实现对实体和关系的语义表示,能够高效的计算实体、关系及其之间的复杂语义关联。原创 2017-08-10 23:07:33 · 411 阅读 · 0 评论 -
多变量条件概率等价式推导
转自http://blog.csdn.net/openspirit/article/details/38779245多变量条件概率等价式推导转载 2017-10-19 22:24:22 · 7841 阅读 · 0 评论 -
中文语义相似度调研
汉语句子相似度计算方法比对之研究知网硕士论文:中文句子语义相似判定问题的众包解决方案博客:中文句子相似度计算思路 更具体的介绍原创 2017-10-13 11:38:17 · 1257 阅读 · 0 评论 -
机器翻译Encoder-Decoder模型
转自http://blog.csdn.net/u011414416/article/details/51048994文章位置转载 2017-09-28 17:43:25 · 2232 阅读 · 0 评论 -
迁移学习
转载自迁移学习-彼岸花Transfer Learning Resources在机器学习领域,迁移学习(Transferlearning)是一个比较新的名词。目前国内做这个方面的很少,我目前只知道香港科技大学杨强教授及上海交大的机器学习小组在从事这方面的研究,他们的学生Erheng Zhong以及一帮人就建立了这个一个资源。近几年他们已经取得大量的成果,发表了十几篇AI领域顶级的会议论文。转载 2017-09-11 09:55:42 · 582 阅读 · 0 评论 -
转:文本相似度
转自https://www.cnblogs.com/huilixieqi/p/6493089.html转载 2018-11-25 11:06:55 · 188 阅读 · 0 评论 -
对比损失
转自https://blog.csdn.net/yanqianglifei/article/details/82885477Contrastive Loss在传统的siamese network中一般使用Contrastive Loss作为损失函数,这种损失函数可以有效的处理孪生神经网络中的paired data的关系。siamese network-孪生神经网络contrastive...转载 2019-02-24 23:30:42 · 877 阅读 · 0 评论 -
CNN初探
转自https://www.cnblogs.com/fydeblog/p/7450413.html前言这篇博客主要讲解卷积神经网络(CNN)的历史、模块、特点和架构等等1. CNN历史CNN最早可以追溯到1968Hubel和Wiesel的论文,这篇论文讲述猫和猴的视觉皮层含有对视野的小区域单独反应的神经元,如果眼睛没有移动,则视觉刺激影响单个神经元的视觉空间区域被称为其感受野(Re...转载 2019-03-02 11:45:01 · 371 阅读 · 0 评论 -
word2vec更新训练
转自https://blog.csdn.net/u011010851/article/details/8431368最近写论文在看word2vec工具,训练了一个自己的模型出来,网上的资料说到已训练出来的模型word2vec是支持在不重新训练的情况下再继续添加新文本进行训练补充的(online learning),但照网上的方法出现了一些问题参考博客:http://qiuqingyu....转载 2019-03-06 16:58:41 · 1293 阅读 · 5 评论 -
词向量训练,语料来源总结
转自https://www.cnblogs.com/chenlove/p/9911882.htmlhttps://www.cnblogs.com/sylvanas2012/p/5428746.html转载 2019-03-06 20:23:27 · 2379 阅读 · 0 评论 -
jieba结巴分词--关键词抽取
转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有转载 2017-11-18 11:31:25 · 26657 阅读 · 0 评论 -
关键词抽取(keywords extraction)的相关研究
转自http://blog.csdn.net/noter16/article/details/52933393转载 2017-11-02 21:20:52 · 17230 阅读 · 0 评论 -
中英文分词及词性标注工具
转自http://blog.csdn.net/lsp1991/article/details/22733619转载 2017-11-02 15:50:09 · 2247 阅读 · 0 评论 -
序列标注,维特比算法,中文分词(含代码)
使用深度学习进行中文自然语言处理之序列标注转载 2017-10-27 10:55:22 · 2083 阅读 · 0 评论 -
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)
转自知乎转载 2017-10-27 11:44:19 · 316 阅读 · 0 评论 -
sigmoid,softmax
sigmoidsigmoid和softmax总结原创 2017-10-27 14:37:16 · 183 阅读 · 0 评论 -
word2vec只skip-gram
转自https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html转载 2017-10-27 15:35:14 · 159 阅读 · 0 评论 -
统计机器翻译词对齐模型IBM-model1
转自http://blog.sina.com.cn/s/blog_6335d3b00100w4ch.htmlhttp://blog.csdn.net/messiandzcy/article/details/44813041转载 2017-10-30 14:22:49 · 7309 阅读 · 0 评论 -
Java版本word2vec
转自http://blog.csdn.net/czs1130/article/details/53355376转载 2017-11-07 22:41:49 · 720 阅读 · 0 评论 -
LDA入门与Java实现
转自http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html转载 2017-11-07 22:42:29 · 612 阅读 · 0 评论 -
unigrams,bigrams,trigrams
unigrams一元语法bigrams二元语法trigrams三元语法ngrams第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。参考自然语言处理中的N-Gram模型详解原创 2017-10-31 10:05:34 · 8289 阅读 · 0 评论 -
社区问答调研
博客:社区问答系统及相关技术原创 2017-10-14 12:04:01 · 606 阅读 · 0 评论 -
bagging
转自http://blog.csdn.net/foolsnowman/article/details/51726007转载 2017-10-31 20:32:05 · 287 阅读 · 0 评论 -
MDL:minimum description length principle
转自http://blog.csdn.net/xiaoyu714543065/article/details/8445221转载 2017-11-01 10:46:02 · 1404 阅读 · 0 评论 -
HITS算法类PageRank
百度百科:理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS(Hypertext-InducedTopic Search)算法是利用Web的链接结构进行挖掘典型算法,其核心思想是建立在页面链接关系的基础上,对链接结构的改进算法。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖原创 2017-11-01 16:48:29 · 424 阅读 · 0 评论 -
confidenceInterval置信区间(待解决)
需要查找解决理解的问题原创 2017-11-01 16:51:22 · 604 阅读 · 0 评论 -
AffinityPropagation(AP聚类算法)待理解
转自http://blog.csdn.net/lixi__liu/article/details/48470173http://www.cnblogs.com/huadongw/p/4202492.html转载 2017-11-01 21:35:27 · 397 阅读 · 0 评论 -
singular value decompositionSVD奇异值分解(待理解)
singular value decomposition SVD 奇异值分解eigen-value decomposition 特征值分解都是矩阵的操作原创 2017-11-01 21:53:32 · 296 阅读 · 0 评论 -
谱聚类
百度百科原理总结原创 2017-11-01 21:58:02 · 333 阅读 · 0 评论 -
randomwalk随机游走
PageRank就是一种随机游走原创 2017-11-02 09:57:15 · 2889 阅读 · 0 评论