Natural Language Processing
banlucainiao
立身以力学为先,力学以读书为本。 —郑耕老《劝学》
展开
-
NLP︱高级词向量表达——FastText(简述、学习笔记)
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classificat转载 2017-11-22 11:46:08 · 801 阅读 · 0 评论 -
NLP+2vec︱认识多种多样的2vec向量化模型
来自于github一位博主的整理,好多都没有看到过+还有我一直期待去研究的。 github:https://github.com/MaxwellRebo/awesome-2vec1、word2vec耳熟能详的NLP向量化模型。 Paper: https://papers.nips.cc/paper/5021-distributed-representations-o转载 2017-11-22 11:15:54 · 1212 阅读 · 0 评论 -
自然语言处理中的N-Gram模型详解
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。基于N-Gram模型定义的字符串距离利用转载 2017-11-19 15:41:38 · 1344 阅读 · 1 评论 -
Python自然语言处理工具小结
1 Python 的几个自然语言处理工具NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析转载 2017-11-28 10:28:52 · 2976 阅读 · 0 评论 -
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触转载 2017-11-28 10:52:08 · 345 阅读 · 0 评论 -
基于gensim的Doc2Vec简析,以及用python 实现简要代码
Doc2Vec 原理:Doc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法,可以获得sentences/paragraphs/documents 的向量表达,是 word2vec 的拓展。学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签。例如首先是...转载 2018-03-20 18:20:50 · 3203 阅读 · 1 评论 -
gensim-doc2vec实战
gensim-doc2vec实战Posted on 2016-06-01 | In NLP , Meaning Representation | | 4224gensim的doc2vec找不到多少资料,根据官方api探索性的做了些尝试。本文介绍了利用gensim的doc2vec来训练模型,infer新文档向量,infer相似度等方法,有一些不成熟的地方,后期会继续改进。导...转载 2018-03-21 17:34:46 · 4621 阅读 · 2 评论