NLP
NLP相关的内容
_____miss
这个作者很懒,什么都没留下…
展开
-
neo4j 数组属性(属性值有多个)
1、多个属性值的设置语句match (m:公司{名称:["test3","test2"]}) return m2、多个属性的查询以及merge的使用OPTIONAL MATCH (n:公司) where "test3" in n.名称 WITH nwhere n is null merge (m:公司{名称:["test3","test2"]})return m(1)判断属性是否存在:直接用 "属性值 in 节点.属性名"的形式(2)merge和where不可以同时使用,.原创 2021-01-20 16:21:44 · 3965 阅读 · 0 评论 -
neo4j 图计算(GDS)的一些问题(相似性计算)
最近在neo4j计算了某个节点与其邻居节点的相似度,这里主要使用的是“Neo4j Graph Data Science”这个插件,记录一下使用过程,以及相关文档。环境:Windows10、neo4j 4.0.1本来在网上看到很多示例都是用的algo这个计算相似度的,但是我的neo4j是4.0的,看官网这个包不支持,所以就用了他们现在更推崇的另一个包,我这里用的是“Graph Data Science 1.4.1”1、插件的下载和安装 这一块可以完全参考官方文档:https:/...原创 2020-12-27 16:50:23 · 2365 阅读 · 2 评论 -
Python 中文词云实践(wordcloud)遇到的问题
词云项目的地址:https://github.com/amueller/word_cloud(里面有很多example可以自己玩一下)这个wordcloud包可以根据自己的需求自定义词云的形状,然后词云其实逻辑比较简单,就是做词汇的词频统计,然后就是可视化的部分,但是如果自己去实现肯定是一个比较麻烦的事,这个包用着还不错,就是偶尔会有一点点的小问题需要解决一下。下面就是我自己用的过程中遇到的一些问题,以及解决办法。由于词云的使用示例比较多,所以这里主要记录遇到的问题,没有给出简单示例。1、中文词云显原创 2020-12-27 13:59:07 · 3202 阅读 · 0 评论 -
Python 通过neo4-driver读写neo4数据库
1、安装库pip install neo4j-driver2、Python写数据库的基本操作 这种方式读写neo4j时,write_transaction主要接受两个参数,一个是操作数据库的函数,一个是要写入的数据的参数。而且可以看到,其实写数据到neo4j的函数create_person_node主要做是,构建Cypher语句,这个语句可以是任何的在neo4j数据库操作的原生语句。 例子中给出的是一个创建节点的Cyber语句,其实,这里也可以是一个创建关系的语句,或者...原创 2020-11-22 12:31:07 · 677 阅读 · 0 评论 -
Neo4j的一些基本操作
目录1、neo4j的Windows的安装和启动2、neo4j中一些常用的命令(1)添加添加关系双向关系(2)删除删除节点删除连边删除整个数据(3)修改节点(4)查询节点1、neo4j的Windows的安装和启动(1)neo4j是依赖jdk的,所以首先要安装jdk,并配置好Java的环境(就是把jdk里面的\bin路径加到环境变量中去)(2)在官网下载安装包,Windows的安装包下载之后只需要解压就可以用了(3)解压后,最好把目录底下的\bin..原创 2020-11-16 22:14:40 · 1879 阅读 · 0 评论 -
BERT 面试总结
BERT 1、整个结构的介绍(1)模型输入 输入句子分字符,字符的embedding+position embedding + segement embedding求和作为模型的输入,其中会随机掩盖掉15%的字符,其中80%用[mask]字符代替,这10%的随机替换成其它字符,10%不做改变。(2)模型输出: 预训练模型的输出是输入的各个字符经过模型编码后的embedding,两个任务是预测输入中被掩盖掉的词,以及预测输入的两句是上下两句话还是拼接的。(3)模...原创 2020-10-25 23:01:08 · 1363 阅读 · 0 评论 -
多标签分类方法总结——实现方法、评价指标、损失函数
分类一般分为三种情况:二分类、多分类和多标签分类。多标签分类比较直观的理解是,一个样本可以同时拥有几个类别标签,比如一首歌的标签可以是流行、轻快,一部电影的标签可以是动作、喜剧、搞笑,一本书的标签可以是经典、文学等,这都是多标签分类的情况。多标签分类的一个重要特点是样本的所有标签是不具有排他性的。 在阅读了一篇类似综述总结的博客后,做了以下总结,主要是实现多标签分类的几种思想,以及在深度网络的背景下实现多标签分类的几种方法。 实现多标签分类主要有两种思想,一种是...原创 2020-10-14 20:52:15 · 28271 阅读 · 11 评论 -
分类问题中的各种评价指标——precision,recall,F1-score,macro-F1,micro-F1
目录一、二分类评价指标1、真实标签-预测标签的混淆矩阵2、accuracy3、precision、recall和F1-score4、指标的选择问题二、多分类评价指标1、macro-F12、weight-F13、micro-F14、指标的选择问题注:这篇文章只是对常用的分类问题中的评价指标的总结。一、二分类评价指标1、真实标签-预测标签的混淆矩阵 样本被预测为正 样本被预测为负 实际样本为正 TP(true positive) .原创 2020-10-13 17:33:09 · 10588 阅读 · 0 评论 -
word2vec 学习总结——模型总结
word2vec的基本思想是,用目标词 w 和其上下文 context(w) 之间相互预测,在这个过程中训练得到词典中词的向量。因为是相互预测,所以就有两种不同的模型来实现这个算法: (1)一种是利用上下文 context(w) 来预测目标词 w 的的CBOW(continuous vag-of-words)模型 (2)一种是利用目标词 w 来预测它的上下文的词 context(w),叫做skip-gram模型 两种模型的形式如图所示(左边的是CBOW...原创 2020-08-20 20:25:23 · 1456 阅读 · 0 评论 -
GRU 的总结
书接LSTM的介绍(LSTM的总结),这一节来介绍GRU。GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。 从LSTM的介绍可以知道,一个时间 t 要计算的很多,三个门/权重向量 z,完了还要计算两种信息:全局的和局部的,计算量非常大。基于此,诞生了GRU,它跟LSTM有相当的...原创 2020-08-19 12:34:43 · 13539 阅读 · 0 评论 -
有关LSTM的其他知识
1、LSTM和attention在机器翻译领域的应用: 全面解析RNN,LSTM,Seq2Seq,Attention注意力机制:这篇文章很好的讲解了简单的Seq2Seq模型是怎样的,以及怎么利用LSTM做翻译,以及如何在Seq2Seq中引入attention进行计算的,感觉算是Seq2Seq比较好的一个入门。 如果对LSTM和RNN比较熟悉的,可以直接跳过这两部分的介绍。...原创 2020-08-18 18:21:16 · 525 阅读 · 0 评论 -
LSTM的总结
对于一个算法的产生,一般肯定是为了解决其之前的算法没有解决的问题。所以如果要说一个算法的由来或者优点,肯定是跟它同类型(解决相同的任务),且比他早的里程碑的算法对比。 LSTM是NLP中比较经典的算法,在百科里的介绍是:长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。所以可以看到,LSTM就是为了解决RNN...原创 2020-08-18 15:41:02 · 2214 阅读 · 2 评论 -
BERT 细节问题
输入相关1、三个Embedding直接相加会对语义有影响吗? 虽然在深度神经网络里变得非常复杂,本质上神经网络中每个神经元收到的信号也是“权重”相加得来。虽然在深度神经网络里变得非常复杂,本质上神经网络中每个神经元收到的信号也是“权重”相加得来。 在实际场景中,叠加是一个更为常态的操作。比如声音、图像等信号。一个时序的波可以用多个不同频率的正弦波叠加来表示。只要叠加的波的频率不同,我们就可以通过傅里叶变换进行逆向转换。一串文本也可以看作是一些时序信号,也可以有很多信号进行...转载 2020-08-15 15:16:59 · 2411 阅读 · 0 评论 -
BERT原理和结构详解
目录1. 模型输入2. 网络结构2.1 Self-Attention Layer2.2 Layer Normalization3. 模型预训练3.1 训练任务3.2 模型训练设置4. 总结4.1 模型特点4.2 可优化空间5. Reference1. 模型输入在BERT中,输入的向量是由三种不同的embedding求和而成,分别是: wordpiece embedding:单词本身的向量表示。WordPiece是指将单词划分成一组有限的公共子词单元,转载 2020-08-14 23:58:21 · 72423 阅读 · 11 评论 -
知识图谱学习(转载)
社交图谱好友关系分析:https://blog.csdn.net/superman_xxx/article/details/88920586 如何构建行业知识图谱 (以医疗行业为例):https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/102550183...原创 2020-04-02 00:09:43 · 180 阅读 · 0 评论 -
自然语言处理学习
LSTM和GRULSTM和GRU的解析从未如此清晰(动图+视频)Illustrated Guide to LSTM’s and GRU’s: A step by step explanationLSTM原理讲解 GRU原理讲解GRU与LSTM总结原创 2019-09-01 17:33:20 · 173 阅读 · 0 评论 -
word2vec 学习总结——基础知识
之前学习word2vec时,遇到一篇很棒的详解word2vec前因后果的文章,但是由于没有自己动手造它的代码,所以时间长了就容易忘记,再加之每次看到一些相关的文章就总想去看去收藏,所以觉得需要自己好好捋一捋,以后遇到类似的基础文章可以跳过,节省时间。下面写的都是一些在其他文章中出现过的知识,这里只是个人的总结和理解。大神的文章:word2vec 中的数学原理详解(CSDN)...原创 2019-04-14 18:10:03 · 479 阅读 · 0 评论 -
Bert模型的学习之路
在Bert模型的学习中,遇到了以下一些不错的资料,虽然走了很多弯路,这里总结一下比较好的学习历程吧,需要花一点时间阅读。首先是对NLP中语言模型的一个发展历程的一个介绍:理论模型学习:1、从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史: https://zhuanlan.zhihu.com/p/49271699 与之先...原创 2019-03-04 01:05:27 · 984 阅读 · 0 评论