自然语言处理
饥渴的小苹果
很天然牛奶糖然后天然 很天然天然图画
展开
-
自然语言处理综述
摘自文章本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。这两篇论文都是很好的综述性入门论文,希望详细了解自然语言处理的读者可以进一步阅读这两篇论文。第一部分介绍了自然语言处理的基本概念,作者将 NLP 分为自然语言理解和自然语言生成,并解释了 NLP 过程的各个层级和应用。第二描述的是基于深度学习的 NLP,该论文首先描述了深度学习中的...翻译 2018-12-25 11:08:16 · 3880 阅读 · 0 评论 -
平安科技实习生面试经历
主要是结合简历来看。对应于Neo4j、Python以及机器学习问题记录自我介绍项目介绍Python sort 按照dict 长度排序sort(key)中应用一个lambda表达式Cypher 查找不存在就并删除mergeJava中list的arraylist 和hashlist 的区别是什么?D3 内部用的什么类forcePython 传值还是传参贝叶...原创 2019-01-16 15:56:57 · 3946 阅读 · 1 评论 -
【深度学习基础】RNN、LSTM基本结构
RNN原理1.经典RNN结构RNN全称是Recurrent Neural Networks,即循环神经网络。它是一种对序列型数据进行建模的深度模型。首先复习一下基本的单层神经网络单层神经网络的输入是xxx,经过变换Wx+bWx+bWx+b和激活函数fff得到输出y。在实际应用中,还会遇到一些序列数据。原始的神经网络不太好处理序列数据。为了处理序列建模问题,RNN引入了隐状态hhh...原创 2019-03-05 00:58:48 · 1541 阅读 · 0 评论 -
DeepDive教程第一部分
本文通过一个demo,学习DeepDive教程本文中我们的目标是将使用非结构化的输入,在关系数据库中存储提取出的结果,并且加上deepdive对每个提取结果的预测置信度也就是写一个DeepDive应用根据一个特定的模式来提取mentions与相邻实体和属性之间的关系。这就是关系抽取任务。我们希望从新闻文章中抽取是夫妻关系的两个人的mentions.高级的步骤有:数据处理。首先加载原始语...原创 2019-03-05 02:09:18 · 1964 阅读 · 1 评论 -
neo4j复习
Neo4j特点和优点Neo4j的特点它支持UNIQUE约束它支持完整的ACID(原子性,一致性,隔离性和持久性)规它提供了REST API,可以被任何编程语言(如Java,Spring,Scala等)访问它提供了可以通过任何UI MVC框架(如Node JS)访问的Java脚本Neo4j的优点它很容易表示连接的数据检索/遍历/导航更多的连接数据是非常容易和快速的它非常容易地...原创 2019-03-06 02:33:55 · 388 阅读 · 0 评论 -
DeepDive教程第二部分
2. 使用数据和规则进行远程监督这一节中,将会使用数据和规则来产生一个noisy候选关系集合的标签集合,这个标签用来训练机器学习模型。从两种基础方法进行介绍映射其他数据来做远程监督使用启发式规则来做远程监督对于多标签采用监督的多数投票的方法,使用DDlog实现。接下来声明一个新的table来存储所有的标签(这里针对候选关系集合进行打标签),包括标签(0、1)和规则描述(text)...原创 2019-03-06 14:35:50 · 726 阅读 · 0 评论 -
命名实体识别理论与代码
命名实体识别简介NER是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。学术上NER所涉及...原创 2019-03-03 20:43:58 · 838 阅读 · 0 评论 -
Bi-LSTM-CRF算法详解-1
第1节 介绍1.介绍Bi-LSTM-CRF算法是目前最为流行的NER算法。BiLSTM和CRF可以看做NER模型中的两个不同层1.1 开始之前假设我们有一个数据集,其中有两种实体类别:Person和Organization。对于每一个类别又分为开始单词和中间单词,所以就有了5种类别。B-Person (Person的第一个单词)I- Person ...原创 2019-03-03 23:32:45 · 13560 阅读 · 5 评论 -
Bi-LSTM-CRF算法详解-2
2.6原创 2019-03-04 17:35:12 · 1064 阅读 · 2 评论 -
【汽车行业用户观点主题及情感识别】规则介绍
来源本题目为 2018 CCF大数据与计算智能大赛(BDCI 2018 )中 的一道赛题汽车行业用户观点主题及情感识别背景随着政府对新能源汽车的大力扶植以及智能联网汽车兴起都预示着未来几年汽车行业的多元化发展及转变。汽车厂商需要了解自身产品是否能够满足消费者的需求,但传统的调研手段因为样本量小、效率低等缺陷已经无法满足当前快速发展的市场环境。因此,汽车厂商需要一种快速、准确的方式来了解消...原创 2019-03-10 12:47:41 · 941 阅读 · 1 评论 -
【汽车行业用户观点主题及情感识别】数据介绍
数据背景数据为用户在汽车论坛中对汽车相关内容的讨论或评价。数据说明(1)训练数据: 训练数据为CSV格式,以英文半角逗号分隔,首行为表头,字段说明如下:字段名称类型描述说明content_idInt数据ID/contentString文本内容/subjectString主题提取或依据上下文归纳出来的主题sentiment_valu...原创 2019-03-10 13:15:33 · 1581 阅读 · 5 评论 -
【汽车行业用户观点主题及情感识别】my简单解决方法
文章目录加载和观察数据加载和观察数据第一步是加载和观察训练集和测试集。导入需要用到的包import jiebaimport pandas as pdimport numpy as npfrom sklearn import preprocessing, decomposition, model_selection, metrics, pipelinefrom sklearn.mod...原创 2019-03-10 15:22:54 · 1572 阅读 · 20 评论 -
NLP面试题目26-30
26. GRUGRU即Gated Recurrent Unit。前面说到为了克服RNN无法很好处理远距离依赖而提出了LSTM,而GRU则是LSTM的一个变体,当然LSTM还有有很多其他的变体。GRU保持了LSTM的效果同时又使结构更加简单,所以它也非常流行。而GRU模型如下,它只有两个门了,分别为更新门和重置门,即图中的zt和rt。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新...原创 2019-01-16 02:04:18 · 2229 阅读 · 0 评论 -
NLP面试题目21-25
21.LR和SVM的联系与区别?联系:1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)2、两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。区别:1、LR是参数模型,SVM是非参数模型。2、从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge ...原创 2019-01-15 23:29:22 · 3141 阅读 · 0 评论 -
NLP面试题目16-20
16.决策树有哪些常用的启发函数?如何对决策树进行剪枝?引言 决策树是一种自上向下,对样本数据进行树形分类的过程。结点分为内部结点和叶节点。每个内部结点代表一个特征,叶节点代表类别。从顶部根节点开始,所有样本聚在一起。经过根节点的划分,样本被划分到不同子节点,再根据子节点特征进一步划分,直到所有样本都被归到某一个类别(叶节点)。 决策树可用于分类与回归问题,应用于集成学习可得到随机森林、...原创 2019-01-15 23:14:17 · 5611 阅读 · 0 评论 -
NLP面试知识点汇总
word2vecRNN LSTM GRUAttention原创 2018-12-25 11:10:46 · 1745 阅读 · 0 评论 -
CS224笔记-第一讲-深度自然语言处理
slides链接what is natural language processing?natural language processing是下面学科的交叉计算机人工智能语言学目标:让计算机理解自然语言让计算机理解和表示自然语言是一个很难的目标NLP level上图是NLP的层次,输入分别是语音和文本,经过语音分析或分词,然后经过词性分析、句法分析、语义分析、输出到...原创 2019-01-05 00:37:58 · 244 阅读 · 0 评论 -
Memory Network学习笔记
引言Memory Networks是由Facebook的Jason Weston等人提出的一个神经网络框架,通过引入长期记忆组件(long-term memory component)来解决神经网络长程记忆困难的问题。在此框架基础上,发展出许多Memory Networks的变体模型。出现原因seq2seq中的记忆依靠rnnCell或者lstmCell实现,但是rnn和lstm的记忆能力实在...转载 2019-01-02 18:54:50 · 417 阅读 · 0 评论 -
NLP常用知识点总结
出于面试的需要,需要总结下自然语言处理的方方面面和常用知识点NLP领域首先总结NLP主要研究问题:机器翻译实体识别文本分类问答系统自动摘要情感分析阅读理解对话机器人机器写作语音识别NLP研究方法1.语言模型定义通过语料计算某个句子出现的概率(概率表示)应用输入法语音识别消除歧义给定拼音串 ta shi yan yan jiu saun fa de可能...原创 2019-01-13 22:16:56 · 1576 阅读 · 0 评论 -
NLP面试题目汇总1-5
1.有哪些文本表示模型,它们各有什么优缺点?文本表示模型是研究如何表示文本数据的模型,输入是语料库(文档)。知识点:词袋模型TF-IDFN-gram词袋模型与N-gram最基本的文本表示模型是词袋模型(Bag of Words)。基本思想是把每篇文章看成一袋子词,并忽略每个词出现的顺序。具体来看:将整段文本表示成一个长向量,每一维代表一个单词。该维对应的权重代表这个词在原文章中的...原创 2019-01-14 01:10:31 · 22549 阅读 · 1 评论 -
电影KBQA-1
知识图谱知识图谱有了一个初步的印象,其本质是为了表示知识。它背后的思想可以追溯到上个世纪五六十年代所提出的一种知识表示形式——语义网络(Semantic Network)。语义网络由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系。知识图谱则更偏重于描述实体之间的关联。知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一...原创 2019-01-08 19:08:39 · 814 阅读 · 0 评论 -
电影KBQA-2
知识图谱的基石:RDF本文将结合实例,对RDF和RDFS/OWL,这两种知识图谱基础技术作进一步的介绍。其实,RDF、RDFS/OWL是类语义网概念背后通用的基本技术,而知识图谱是其中最广为人知的概念。RDF表现形式RDF(Resource Description Framework),即资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。...原创 2019-01-08 19:56:58 · 395 阅读 · 0 评论 -
电影KB-QA 3
通过前面几篇文章的介绍,读者应该对知识图谱,其相关概念,以及语义网技术栈中的RDF,RDFS/OWL有了一定的了解。者准备开一个实践篇,结合理论篇,让读者能够从无到有构建一个领域知识图谱,并在其上搭建一个基于知识图谱的问答小程序。demo比较简单,问答实现是基于模板匹配和正则表达式,整个流程是为了让读者对知识图谱及其相关应用有个直观的认识。首先介绍我们使用的数据、数据来源和数据获取方法;其次,...原创 2019-01-08 23:51:18 · 692 阅读 · 0 评论 -
电影KBQA-4
D2RQ SPARQL endpoint与两种交互方式这次我们介绍利用D2RQ开启SPARQL endpoint服务和两种交互方式:在浏览器中进行查询或者编写python脚本进行交互。一、SPARQL endpointSPARQL endpoint是SPARQL协议的一部分,用于处理客户端的请求,可以类比web server提供用户浏览网页的服务。通过endpoint,我们可以把数据发布在网...原创 2019-01-09 00:21:33 · 491 阅读 · 0 评论 -
NLP面试题目6-10
6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数吗?激活函数选取 关于激活函数的选取。在LSTM中,遗忘门、输入门、输出门使用Sigmoid函数作为激活函数;在生成候选记忆时,使用双曲正切函数Tanh作为激活函数。 值得注意的是,这两个函数都是饱和的,也就是在输入达到一定值的情况下,输出不会发生明显变化。如果是非饱和的激活函数,比如ReLU,那么就难以实现门控的效果。...原创 2019-01-14 22:57:49 · 8104 阅读 · 0 评论 -
NLP面试题目汇总11-15
10.知道哪些命名实体识别算法?具体的优缺点?(Bi-LSTM-CRF)参考链接-机器之心NER简介 命名实体识别是自然语言处理中的一项基本任务。命名实体一般指文本中具有特定意义或指代性强的实体。通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。 [地位]NER可以看作词法分析中未登录词识...原创 2019-01-15 00:40:50 · 3990 阅读 · 1 评论 -
【汽车行业用户观点主题及情感识别】CNN文本解决方案
文章目录方案说明信息方案1. 合并重复id的标签,直接多标签分类,也方便交叉验证2. 分词:word level + char level3. 数据增强4. 双向RNN(GRU/LSTM)编码+注意力/胶囊5. 输出6. 训练指标F1,总出现NaN, 花费了很多时间测试修改(偶尔loss也出现NaN,未彻底解决,不是样本问题)7. 模型融合代码分析准备工作导入需要的包读取数据合并主题和感情,共三十...转载 2019-03-11 18:43:31 · 2993 阅读 · 4 评论