自然语言处理
文章平均质量分 58
少儿西笑
自然语言处理工程师
展开
-
情感分析工具测评
情感分析情感倾向分析针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感类型分为积极、消极、中性。情感倾向分析能够帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。本文主要对两个情感分析的工具进行测评。SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所原创 2020-06-11 09:36:25 · 2064 阅读 · 0 评论 -
Bert应用于序列标注
NER命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。datahttps://www.kaggle.com/abhinavwalia95/entity-annotated-corpus/downloadMethods统计的方法机器学习统计和机器...原创 2019-11-15 16:39:38 · 1175 阅读 · 0 评论 -
XLNet简介
背景知识语言模型:自回归和自编码模式图示:黄色块为输入字符,蓝色块为字符的位置。对于自回归语言模型,它希望通过已知的前半句预测后面的词或字。对于自编码语言模型,它希望通过一句话预测被 Mask 掉的字或词,如上所示第 2 个位置的词希望通过第 1、3、5 个词进行预测。自回归式的优缺点计算效率比较高只能编码单向语义自编码式的优缺点双向编码能力BERT 假设要预测的词之间是相...原创 2019-11-15 16:37:05 · 982 阅读 · 0 评论 -
一个文本纠错的小例子
文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。Non-word拼写错误第一种是Non-word拼写错误,表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”,把“correction”误拼写为“corrction”。操作步骤:这类问题的解决思路可分为两个步骤,首先找到字典中...原创 2019-11-15 16:31:32 · 1393 阅读 · 0 评论 -
利用动态规划求解编辑距离
概念字符串的编辑距离,又称为Levenshtein距离,由俄罗斯的数学家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:删除一个字符 a) Insert a character插入一个字符 b) Delete a character修改一个字符 c) Replace a ch...原创 2019-02-19 16:24:24 · 665 阅读 · 0 评论 -
信息抽取
信息抽取技术主要用于抽取:抽取实体:比如人,地名,时间这些一般的常见的实体,再比如在一些垂直领域,需要提取医疗领域,金融领域,教育领域等方面的实体。抽取关系:提取的是实体与实体间的关系。信息抽取应用场景:比如我们有以上一段话,需要进行实体抽取,以及实体间的关系抽取,接下来需要把这些信息整合成知识图谱的形式。更多应用:知识库的搭建Google Scholar用户库: R...原创 2019-02-22 15:13:23 · 2507 阅读 · 0 评论 -
实体消歧和实体统一
实体消歧概念:实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。例子:‘我的手机是苹果’和‘我喜欢吃苹果’这两个句子中的‘苹果’代表的含义是不一样的。问题:怎么识别单词的真正含义?方法:能过上下文计算相似度。比如我们已知“苹果:是水果中的一种,一般产自于…”,“苹果:美国一家高科技公司,经典的产品有iPhone手机”,我们可以将这两种含义用向量来表示;接...原创 2019-02-22 11:05:14 · 6038 阅读 · 0 评论 -
Skip-Gram模型理解
译自:http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/什么是Word2Vec和Embeddings?Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然语言处理呢?Word2Vec其实就是通过学习文本来用词向量的方...翻译 2019-02-22 10:18:49 · 376 阅读 · 0 评论 -
Beam Search
Q: 什么是Beam Search? 它在NLP中的什么场景里会⽤到?传统的广度优先策略能够找到最优的路径,但是在搜索空间非常大的情况下,内存占用是指数级增长,很容易造成内存溢出,因此提出了beam search的算法。beam search尝试在广度优先基础上进行进行搜索空间的优化(类似于剪枝)达到减少内存消耗的目的。在sequence2sequence模型中,beam search的方法...转载 2019-02-21 20:50:28 · 376 阅读 · 0 评论 -
T-SNE简介
Q:什么是T-SNE,为什么可视化词向量的时候不使⽤PCA, ⽽使⽤TSNE?t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在 08 年提出来。t-SNE 是一种非线性降维算法,非常适用于高维数据降维到 2 维或者 3 维,进行...原创 2019-02-21 20:39:00 · 2990 阅读 · 0 评论 -
一些资源分享
web socket:https://www.zhihu.com/question/20215561/answer/40316953消息系统设计:https://www.cnblogs.com/dytl/p/5336917.htmlsequelizehttp://docs.sequelizejs.com/manual/tutorial/associations.htmlelastic ...原创 2019-01-07 10:39:27 · 379 阅读 · 0 评论 -
Attention机制通俗介绍
好,在讲attention之前,大家有必要了解两个知识点,词向量和RNN。什么是词向量呢?也就是把语言向量化来作为模型的输入。什么是RNN呢,也就是循环神经网络,看下面这个示意图,这里的每一个X代表每一步的输入,A代表运算过程,可以看到,每一步的计算输出都被作为下一步的输入,另个需要说明一点,每个A里的参数都是一样的,这就是为什么这种模型叫作循环神经网络。那现在进入今天的主题,attent...原创 2018-12-22 12:29:02 · 3833 阅读 · 0 评论 -
自然语言处理中的关键词抽取模型(TF—IDF)
关键词提取能让我们快速地了解一篇文章,或者从大量的语料中快速找到其想说明的主题。在自然语言处理中,提取关键词是很重要的数据预处理部分。这里要介绍的是TF-IDF(term frequency-inverse document frequency)算法来提取关键词,它的实现简单,并且效果显著,所以应用很广。别看它的名字这么复杂,其实原理很简单,是一种统计方法,一个词的重要性随着它在文件中出现的次数...原创 2018-11-26 20:12:14 · 1191 阅读 · 0 评论 -
关于一款心理辅导机器人的调研(Woebot)
引子Woebot是一款Facebook Messenger聊天机器人,基于认知行为疗法(Cognitive Behavior Therapy,CBT )来帮助精神抑郁人群。这是一个有基于3亿抑郁患者庞大目标用户群的市场。新科技的应用能在许多方面扩展心理治疗工具,以及使用规模和疗效,如今该领域将注意力转入了人工智能技术。AI+心理健康(从认知行为治疗出发)认知行为治疗始于上世纪60年代,其逐渐...原创 2018-11-13 14:15:10 · 3868 阅读 · 0 评论 -
关于AI+医疗的调研
人工智能+医疗定义“人工智能+医疗”是人工智能技术(机器学习,数据挖掘为两大技术核心)对于医疗产业的赋能(降本增效,产生影响)现象深度学习使人工智能取得新突破深度学习模拟人脑深度结构, 认知过程逐层进行,逐步抽象;其代表是卷积神经网络 (Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Networks, RNN)卷积神经...原创 2018-11-13 14:09:26 · 1997 阅读 · 0 评论 -
UNE BASE SIMPLE MAIS PARFAITE POUR SENTENCE EMBEDDINGS(一个简单但很难超越的Sentence Embedding基线方法)
法语简介: ABSTRAIT Le succès des méthodes de réseau de neurones pour le calcul des intégrations de mots a conduit à des méthodes activées pour générer des enchaînements sémantiques de textes plus longs,...翻译 2018-09-12 10:19:53 · 400 阅读 · 0 评论 -
关于对词向量的一个小结
在用深度学习处理自然语言的过程中,必然会用到词向量,用google的word2vec工具可以很容易地生成词向量。可是,具体这其中的原理是什么呢?在这里从简单到复杂以问答的形式做一个总结。什么是词向量呢? 很简单,顾句思义,就是把词用向量的形式表示出来。为什么说用深度学习处理自然语言时,就要用到词向量呢? 这个也很容易理解,既然涉及到计算,那么就自然要用到数了,你总不能直接将一段文字输到...原创 2018-08-15 16:48:10 · 1623 阅读 · 0 评论 -
依存句法分析小结
一直都是对依存句法分析只有一个模模糊糊的概念,最近看了一些相关的文章以及视频,在这里做一个小结。依存句法 分析( Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。 使用语义依存刻画句子语义,好处在于不需要去明白词汇本身的意思,而是通过词汇所承受的语义框架来描述该词汇,而其数目相对词汇来说数量是小很多的。这样一来,大部分的句子都可以用这个框...原创 2018-08-15 12:34:27 · 13764 阅读 · 0 评论