![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
Natural Language Processing
Janvn
这个作者很懒,什么都没留下…
展开
-
【汇总】语料库资源
国内可用免费语料库(凡没有标注不可用的链接均可用)(一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2.古代汉语语料库http://www.cncorpus.or转载 2015-06-02 23:40:32 · 5750 阅读 · 0 评论 -
斯坦福大学深度学习与自然语言处理第一讲:引言
斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊 Richard Socher,他本人是德国人,大学期间涉足自然语言处理,在德国读研时又专攻计算机视觉,之后在斯坦福大学攻读博士学位,拜师NLP领域的巨牛 Chris Manning 和 Deep Lea转载 2015-06-01 23:02:58 · 1233 阅读 · 0 评论 -
斯坦福大学深度学习与自然语言处理第二讲:词向量
斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊 Richard Socher,以下为相关的课程笔记。第二讲:简单的词向量表示:word2vec, Glove(Simple Word Vector representations: word2v转载 2015-06-07 11:01:16 · 1559 阅读 · 0 评论 -
关键词抽取简介
转自:http://ling0322.info/2014/04/08/introduction-to-keyphrase-extraction.html关键词提取就是从文本里面把跟这篇文章意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些以外,关键词还可以在文本聚类、分类、摘要等转载 2015-07-29 16:33:53 · 758 阅读 · 0 评论 -
中文分词与停用词的作用
转自:http://blog.sina.com.cn/s/blog_56d8ea9001018i6y.html首先什么是中文分词stop word?英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”转载 2015-08-10 14:55:12 · 13736 阅读 · 0 评论 -
WORDNET与HOWNET之比较
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2015-07-17 19:32:00 · 2474 阅读 · 0 评论 -
TEXT CLASSIFICATION FOR SENTIMENT ANALYSIS – NAIVE BAYES CLASSIFIER
Sentiment analysis is becoming a popular area of research and social media analysis, especially around user reviews and tweets. It is a special case of text mining generally focused on identifying opin转载 2015-08-12 14:25:36 · 892 阅读 · 0 评论 -
Python nltk -- Sinica Treebank
原url:http://cpmarkchang.logdown.com/posts/184192-python-nltk-sinica-treebank以下为原文:今天我們來談談如何用python nltk做中文的的自然語言處理 nltk有內建的中文treebank,是中研院的sinica treebank 是免費的中文treebank 至於要如何使用呢? 首先 先載入模組>>> from转载 2015-08-18 20:13:44 · 2390 阅读 · 0 评论 -
基于深层神经网络的命名实体识别技术
命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。命名实体识转载 2015-09-15 23:20:22 · 980 阅读 · 0 评论 -
NLP in Python(spaCy模块的简单使用)
译自:https://dzone.com/articles/nlp-in-python (by Jayesh Bapu Ahire Mar.13.18)翻译:by Janvn in Aug.17.2019测试环境:win10Python环境:Python 3.7.3 | AnacondaspaCy使用方法:https://github.com/explosion/spaCy...翻译 2019-08-18 01:18:35 · 5099 阅读 · 1 评论 -
NLPIR(ICTCLAS2015)python调用接口配置
Date:2015/6/15Author:JanvnOS:Win7 64Python :2.7.6 win32NLPIR(ICTCLAS2015)python调用接口配置说明1. 首先安装swig(具体是什么,自行百度)http://sourceforge.net/projects/swig/files/swigwin/下载swigwin-3.0.52.原创 2015-06-15 19:58:42 · 2943 阅读 · 3 评论 -
利用word2vec对关键词进行聚类
原url:http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用km转载 2015-04-21 21:29:00 · 2155 阅读 · 0 评论 -
Modern Methods for Sentiment Analysis
原文url:https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysisSentiment analysis is a common application of Natural Language Processing (NLP) methodologies, particularly cl转载 2015-04-18 16:10:10 · 2999 阅读 · 0 评论 -
无约束最优化二
2.1 a_k合理性讨论 如下将要讨论关于a_k需要满足的两个条件,当a_k满足这两个条件后,就可以认为从x_k点移动到x_k+1点的步长已经确定下来了。第一个条件为sufficient decrease condition,从直观角度来看,该条件主要要用保证x_k+1点的函数值要小于x_k点的函数值,满足该条件后,才有全局收敛 的可能性。第二个条件为curvature condition,转载 2015-01-28 10:23:54 · 501 阅读 · 0 评论 -
无约束最优化三
2.2 a_k步长的选择 了解了a_k的合理性之后,就相当于获得了标尺,在此基础上我们可以选择合适的策略来求取a_k。所有的line search过程在计算每一步的a_k时,均需要提供一个初始点a_0,然后再此基础上生成一系列的{a_i},直到a_i满足2.1节所规定的条件为止,此时该a_k即被确定为a_i,或者未找到一个合适的a_k。这里我们仅介绍目前常用的策略平方插值和立方插值法。因此本转载 2015-01-28 10:39:54 · 478 阅读 · 0 评论 -
无约束最优化五
3.2 Quasi-Newton Method Quasi-Newton Method每一步计算过程中仅涉及到函数值和函数梯度值计算,这样有效避免了Newton Method中涉及到的Hessian矩阵计算问题。于Newton Method不同的是Quasi-Newton Method在每点处构建一个如下的近似模型: 从上面的近似模型我们可以看出,该模型用B_k代替了Newton M转载 2015-01-28 10:59:19 · 592 阅读 · 0 评论 -
无约束最优化四
3.Quasi-Newton Method 在第2节中我们了解了步长的概念,以及从x_k走到x_k+1点使用line search方法计算步长的方法。不过我们在那里忽略了一个重要的概念,即“方向”。从第2节,我们了解到从每一点x_k走到下一点x_k+1时,需要给出要走的“方向”,只有“方向”确定好之后,才能在此基础上应用line search方法找到对应的“步长”,因此在解决了“步长”计算问转载 2015-01-28 10:50:02 · 463 阅读 · 0 评论 -
网络挖掘技术——微博文本特征提取
文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距转载 2015-01-30 21:17:38 · 1295 阅读 · 0 评论 -
使用Lucene 3.0.0的结构遍历TokenStream的内容
以前版本的Lucene是用TokenStream.next()来遍历TokenStream的内容, 目前的版本稍微修改了一下, 使用下面的的一段程序可以遍历TokenStream的内容private staticvoid displayTokenStream(TokenStream ts) throws IOException{ TermAttribute termAtt =(Ter转载 2015-02-02 20:08:14 · 685 阅读 · 0 评论 -
详解庖丁解牛中文分词器工具的使用
今天在网上看了一篇关于中文分词的文章,有一类是关于基于字符串匹配的中文分词,里面谈到了一个“庖丁解牛分词器”,于是本人就想尝试跑跑这个分词工具。下面是具体的使用步骤:1. 从网上下载了一个庖丁解牛中文分词工具压缩包,放入D:\SoftwarePackage中。解压D:\SoftwarePackage中的paoding-analysis-2.0.4-beta压缩包到文件夹D:\software转载 2015-02-02 10:08:12 · 5870 阅读 · 1 评论 -
mecab: error while loading shared libraries: libmecab.so.1: cannot open shared object file: No such
ubuntu上,打开终端,$ sudo vim /ect/ld.so.confinsert进行插入:/usr/local/libesc后,:wq退出vim$ sudo /sbin/ldconfig原创 2015-04-05 15:07:50 · 928 阅读 · 0 评论 -
斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”
转自:52opencourse.com/http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%83%85%E6%84%9F%E5转载 2015-04-18 16:06:21 · 4009 阅读 · 0 评论 -
无约束最优化一
估计有些读者看到这个题目的时候会觉得很数学,和自然语言处理没什么关系,不过如果你听说过最大熵模型、条件随机场,并且知道它们在自然语言处理中被广泛应用,甚至你明白其核心的参数训练算法中有一种叫LBFGS,那么本文就是对这类用于解无约束优化算法的Quasi-Newton Method的初步介绍。 事实上,这个系列的作者是我的师兄jianzhu,他在中文分词、语言模型方面的研究很深入,如果大家对于转载 2015-01-27 19:11:46 · 709 阅读 · 0 评论