博客专栏  >  架构   >  自然语言处理

自然语言处理

自然语言处理

关注
11 已关注
25篇博文
  • 双数组Trie树高效构建有向无环图

    图 图是很常见的一种结构了,不管是数据结构算法中的各种图结构,还是机器学习中的概率图。图主要是由若干顶点及连接两顶点的边所构成的图形,通过它可以用来描述某些事物之间的某种特定关系。 有向无环图...

    2018-07-19 08:33
    344
  • 我的开源项目——自然语言处理实验室

    github https://github.com/sea-boat/nlp_lab nlp_lab some code about nlp. doc2txt tf-idf cnn text...

    2018-07-05 09:29
    117
  • 开源一个seq2seq模型chatbot

    seq2seq_chatbot a chatbot which is implemented via seq2seq model. how to train run ‘data.py’ t...

    2018-07-05 09:36
    92
  • 同义词相似度可以怎样计算

    前言 词语的相似性的计算方法有很多,比如字面相似度计算方法、基于语义词典的计算方法、基于统计的相似度(向量空间模型)计算方法和基于神经网络的相似度计算方法。 本篇文章讲讲基于词林的语义相似性。 ...

    2018-06-28 08:58
    401
  • 开源一个机器学习文本分析项目

    TextAnalyzer A text analyzer which is based on machine learning that can analyze text. So far, it ...

    2018-06-01 08:22
    480
  • 怎样实现基于Trie树和字典的分词功能

    前言 目前做分词比较流行的是用深度学习来做,比如用循环神经网络和条件随机场,也有直接用条件随机场或隐马尔科夫模型的。前面也实现过上面几种,效果挺不错,基于隐马尔科夫模型的差一点,条件随机场的效果较好...

    2018-06-06 08:36
    90
  • 怎样衡量两个字符串的相似度(编辑距离动态规划求解)

    前言 目前计算句子相似性有很多不同的方案,比如基于语义词典的方法、基于相同词汇的方法、基于统计的方法和基于编辑距离的方法。这篇文章先介绍编辑距离的基础。 编辑距离 编辑距离其实就是指把一个字...

    2018-06-12 08:22
    109
  • 一图简看基于搜索的问答机器人设计

    前言 对于 chatbot,现在学界更流行的实现方式是基于深度学习和强化学习,比如seq2seq模型,具体可参考前面的文章《深度学习的seq2seq模型》。 而对于工业界,直接用 seq2seq ...

    2018-05-22 08:48
    425
  • 双向循环神经网络+条件随机场进行分词

    前言 目前 NLP 领域的很多任务基本都会朝深度学习、注意力模型、半监督等方向发展,而且确实也取得了更好的效果,而有些也会把深度学习和传统机器学习结合起来,都能有不错的性能提升。这里讲一个用深度学习...

    2018-05-16 08:25
    381
  • 条件随机场实现命名实体识别

    前言 NLP 被很多人称为人工智能皇冠上的明珠,可见其在 AI 领域的重要性,而命名实体识别(NER)又一直是 NLP 领域的研究热点,所以这块任务是 NLP 必谈的。 NER 早期的实现主要是基...

    2018-04-12 08:39
    697
  • 卷积神经网络文本分类

    前言 卷积神经网络(CNN)在图像处理领域取得了很大的成绩,它的卷积和池化结构能很好提取图像的信息,而在 NLP 领域循环神经网络(RNN)则使用的更多,RNN 及其各种变种因拥有记忆功能使得它们更...

    2018-03-24 10:14
    2908
  • 文本分析——分配单词权重

    前言 文本处理中很多时候会需要给每个单词分配权重,有了权重以便后续进一步处理。常用的算法主要是TF-IDF。 TF TF,即Term Frequency。我们可以将文档看成由若干词(term...

    2018-03-13 08:50
    604
  • 基于典型相关分析的词向量

    本文首发于雷锋网 前言 在NLP领域中,为了能表示人类的语言符号,一般会把这些符号转成一种数学向量形式以方便处理,我们把语言单词嵌入到向量空间中就叫词嵌入(word embedding)。 ...

    2018-01-09 16:49
    1304
  • 中文文本相似度的研究有什么用

    前言人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计...

    2017-12-15 16:51
    2074
  • n元语法

    语言模型在统计自然语言处理中语言模型是很重要的一块,常用的语言模型是n元语法模型,当然现在比较流行的还有神经网络语言模型。n元语法模型需要额外的平滑处理,而神经网络语言模型则不必,它自带平滑效果。n元...

    2017-11-28 09:16
    1753
  • 机器学习之条件随机场(CRF)

    什么是CRFCRF即条件随机场(Conditional Random Fields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型,既然是判别式...

    2017-11-09 14:46
    6019
  • 来自麻省理工的信息抽取

    MITIEMITIE 即 MIT 的 NLP 团队发布的一个信息抽取库和工具。它是一款免费且先进的信息抽取工具,目前包含了命名实体抽取、二元关系检测功能,另外也提供了训练自定义抽取器和关系检测器的工具...

    2017-11-02 08:51
    4165
  • 谈谈谷歌word2vec的原理

    word2vec在NLP领域中,为了能表示人类的语言符号,一般会把这些符号转成一种数学向量形式以方便处理,我们把语言单词嵌入到向量空间中就叫词嵌入(word embedding)。谷歌开源的word2...

    2017-08-10 20:14
    5195
  • 如何用TensorFlow训练词向量

    前言前面在《谈谈谷歌word2vec的原理》文章中已经把word2vec的来龙去脉说得很清楚了,接下去这篇文章将尝试根据word2vec的原理并使用TensorFlow来训练词向量,这里选择使用ski...

    2017-08-24 15:21
    5559
  • 如何用TensorFlow训练聊天机器人(附github)

    前言实际工程中很少有直接用深度学习实现端对端的聊天机器人,但这里我们来看看怎么用深度学习的seq2seq模型来实现一个简易的聊天机器人。这篇文章将尝试使用TensorFlow来训练一个基于seq2se...

    2017-09-28 08:59
    17728
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部