NLP
AI东海
既要仰望星空,又要脚踏实地,怀着一颗感恩的心出发!
展开
-
gensim中word2vec
在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度,使用gensim来学习word2vec。转载 2018-01-23 17:58:56 · 1205 阅读 · 0 评论 -
分词原理
在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的分词原理做一个总结。转载 2018-01-29 16:43:47 · 1662 阅读 · 0 评论 -
python中gensim库详解
一、gensim介绍 gensim是一款强大的自然语言处理工具,里面包括N多常见模型: - 基本的语料处理工具 - LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec、paragraph2vec转载 2018-01-19 16:56:08 · 41762 阅读 · 3 评论 -
基于笔画中文分词算法---蚂蚁金服
原标题:AAAI 2018 | 蚂蚁金服公开最新基于笔画的中文词向量算法 转载自蚂蚁金服科技 作者:曹绍升 陆巍 周俊 李小龙 词向量算法是自然语言处理领域的基础算法,在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。转载 2018-01-19 15:13:06 · 1820 阅读 · 0 评论 -
基于深度学习的NER
命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用也极为广泛。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。简单是说在NER中应用是,给定一系列的特征去预测每个词的标签。转载 2018-01-19 15:06:43 · 11329 阅读 · 0 评论 -
词嵌入、句向量等方法汇总
词嵌入、句向量、篇章向量转载 2018-01-17 11:03:39 · 12038 阅读 · 1 评论 -
CRF条件随机场
简介条件随机场(CRF)是给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布。转载 2018-01-19 10:13:41 · 333 阅读 · 0 评论 -
NLP中文分词工具比较
THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室)转载 2018-01-19 09:09:18 · 35134 阅读 · 4 评论 -
基于深度学习分词
深度学习在NLP中的中文分词转载 2018-01-17 16:45:13 · 8563 阅读 · 0 评论 -
doc2vec
在我们做文本处理的时候,经常需要对两篇文档是否相似做处理或者根据输入的文档,找出最相似的文档。幸好gensim提供了这样的工具,具体的处理思路如下,对于中文文本的比较,先需要做分词处理,根据分词的结果生成一个字典,然后再根据字典把原文档转化成向量。然后去训练相似度。把对应的文档构建一个索引转载 2018-01-17 11:34:55 · 2290 阅读 · 1 评论 -
attention简单实现
keras还没有官方实现attention机制,有些attention的个人实现,在mnist数据集上做了下实验。模型是双向lstm+attention+dropout,话说双向lstm本身就很强大了。 参考链接:https://github.com/philipperemy/keras-attention-mechanism https://github.com/keras-team/kera转载 2018-04-11 10:30:03 · 10065 阅读 · 6 评论