博客专栏  >  架构   >  自然语言处理

自然语言处理

自然语言处理

关注
7 已关注
21篇博文
  • 开源一个机器学习文本分析项目

    TextAnalyzer A text analyzer which is based on machine learning that can analyze text. So far, it ...

    2018-06-01 08:22
    188
  • 怎样实现基于Trie树和字典的分词功能

    前言 目前做分词比较流行的是用深度学习来做,比如用循环神经网络和条件随机场,也有直接用条件随机场或隐马尔科夫模型的。前面也实现过上面几种,效果挺不错,基于隐马尔科夫模型的差一点,条件随机场的效果较好...

    2018-06-06 08:36
    41
  • 怎样衡量两个字符串的相似度(编辑距离动态规划求解)

    前言 目前计算句子相似性有很多不同的方案,比如基于语义词典的方法、基于相同词汇的方法、基于统计的方法和基于编辑距离的方法。这篇文章先介绍编辑距离的基础。 编辑距离 编辑距离其实就是指把一个字...

    2018-06-12 08:22
    30
  • 一图简看基于搜索的问答机器人设计

    前言 对于 chatbot,现在学界更流行的实现方式是基于深度学习和强化学习,比如seq2seq模型,具体可参考前面的文章《深度学习的seq2seq模型》。 而对于工业界,直接用 seq2seq ...

    2018-05-22 08:48
    276
  • 双向循环神经网络+条件随机场进行分词

    前言 目前 NLP 领域的很多任务基本都会朝深度学习、注意力模型、半监督等方向发展,而且确实也取得了更好的效果,而有些也会把深度学习和传统机器学习结合起来,都能有不错的性能提升。这里讲一个用深度学习...

    2018-05-16 08:25
    170
  • 条件随机场实现命名实体识别

    前言 NLP 被很多人称为人工智能皇冠上的明珠,可见其在 AI 领域的重要性,而命名实体识别(NER)又一直是 NLP 领域的研究热点,所以这块任务是 NLP 必谈的。 NER 早期的实现主要是基...

    2018-04-12 08:39
    318
  • 卷积神经网络文本分类

    前言 卷积神经网络(CNN)在图像处理领域取得了很大的成绩,它的卷积和池化结构能很好提取图像的信息,而在 NLP 领域循环神经网络(RNN)则使用的更多,RNN 及其各种变种因拥有记忆功能使得它们更...

    2018-03-24 10:14
    1852
  • 文本分析——分配单词权重

    前言 文本处理中很多时候会需要给每个单词分配权重,有了权重以便后续进一步处理。常用的算法主要是TF-IDF。 TF TF,即Term Frequency。我们可以将文档看成由若干词(term...

    2018-03-13 08:50
    386
  • 基于典型相关分析的词向量

    本文首发于雷锋网 前言 在NLP领域中,为了能表示人类的语言符号,一般会把这些符号转成一种数学向量形式以方便处理,我们把语言单词嵌入到向量空间中就叫词嵌入(word embedding)。 ...

    2018-01-09 16:49
    1164
  • 中文文本相似度的研究有什么用

    前言人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计...

    2017-12-15 16:51
    1879
  • n元语法

    语言模型在统计自然语言处理中语言模型是很重要的一块,常用的语言模型是n元语法模型,当然现在比较流行的还有神经网络语言模型。n元语法模型需要额外的平滑处理,而神经网络语言模型则不必,它自带平滑效果。n元...

    2017-11-28 09:16
    1097
  • 机器学习之条件随机场(CRF)

    什么是CRFCRF即条件随机场(Conditional Random Fields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型,既然是判别式...

    2017-11-09 14:46
    1730
  • 来自麻省理工的信息抽取

    MITIEMITIE 即 MIT 的 NLP 团队发布的一个信息抽取库和工具。它是一款免费且先进的信息抽取工具,目前包含了命名实体抽取、二元关系检测功能,另外也提供了训练自定义抽取器和关系检测器的工具...

    2017-11-02 08:51
    2914
  • 谈谈谷歌word2vec的原理

    word2vec在NLP领域中,为了能表示人类的语言符号,一般会把这些符号转成一种数学向量形式以方便处理,我们把语言单词嵌入到向量空间中就叫词嵌入(word embedding)。谷歌开源的word2...

    2017-08-10 20:14
    4174
  • 如何用TensorFlow训练词向量

    前言前面在《谈谈谷歌word2vec的原理》文章中已经把word2vec的来龙去脉说得很清楚了,接下去这篇文章将尝试根据word2vec的原理并使用TensorFlow来训练词向量,这里选择使用ski...

    2017-08-24 15:21
    4351
  • 如何用TensorFlow训练聊天机器人(附github)

    前言实际工程中很少有直接用深度学习实现端对端的聊天机器人,但这里我们来看看怎么用深度学习的seq2seq模型来实现一个简易的聊天机器人。这篇文章将尝试使用TensorFlow来训练一个基于seq2se...

    2017-09-28 08:59
    15190
  • 设计一个智能客服系统

    背景:最近在设计一个公司的智能客服系统,通过对现有人工客服语料作为样本,通过训练样本完成整个QA过程或业务办理过程。整体思路 AliceBot负责闲聊,这里用了开源的语料,也可以添加语料到DB,基于A...

    2017-03-14 17:55
    6857
  • 如何用机器学习对文本分类

    需求使用监督学习对历史数据训练生成模型,用于预测文本的类别。样本清洗主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。def...

    2017-05-30 20:21
    2474
  • 开源一个文本分析项目

    Githubhttps://github.com/sea-boat/TextAnalyzerTextAnalyzera text analizer that can analyze text. so ...

    2017-06-12 18:18
    1782
  • kmeans实现文本聚类

    需求拿到的需求是输入n个文本,对文本进行聚类,由于这些输入不能通过历史数据进行训练,所以这个主要就是用无监督学习来解决。kmeans谈到聚类就会想到kmeans,它的核心思想是给定的K值和K个初始质心...

    2017-06-22 20:13
    2252

关于读书
31235
JDK源码
43115559
机器学习&深度学习
43146697
mysql协议
2034672
Hazelcast
530455
通信框架Tribes
822995
集群
1765471
tomcat内核
83331111
Java并发
2276931
java开源研究
41181044
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部