![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 77
Jeu
本科阶段专业是光信息科学与技术,研究生阶段课题是目标跟踪算法的研究,毕业后从事nlp相关领域的工作,包括对话系统、摘要生成、实体识别等
展开
-
simcse模型
对比学习转载 2023-03-08 10:52:23 · 143 阅读 · 0 评论 -
下拉框推荐-Suggest-SUG
下拉框推荐、sug、suggest原创 2023-02-28 19:01:05 · 1667 阅读 · 0 评论 -
chatgpt
chatgpt概要转载 2023-02-22 17:55:49 · 3955 阅读 · 0 评论 -
prompt范式
1-范式发展历程:P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)--特征工程 P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)--架构工程P3. 预训练,精调范式 (Pre-train, Fine-tune)--目标工程 P4. 预训练,提示,预测范式(Pre-train, Prompt, Predict)--prompt挖掘工程从原创 2021-08-16 15:15:16 · 2584 阅读 · 0 评论 -
2021-04-12
NLP=自然语言处理和CV相比,nlp最大的特点是特征是离散的,不像cv中是一幅图,nlp是一个个的句子简单说几点nlp的难点: 1、相同意思的句子表达有多种:我爱踢足球;足球是我的爱好;我的爱好之一是足球 2、相同词在不同语境中意思不同:我喜欢苹果;我喜欢用苹果公司的产品 3、词的先后顺序直接影响语意:我爱你;你爱我 4、多加一个字直接影响语意:我爱吃西瓜;我不爱吃西瓜 5、语句中噪声多,真正影响语意的可能只有几...原创 2021-04-12 17:45:43 · 614 阅读 · 0 评论 -
NER实体识别漏标对模型性能的影响及优化方法
论文地址:https://arxiv.org/pdf/2012.05426.pdf1、先简单介绍一下一些基础的东西。我们在进行实体识别(NER)的时候,标注成本是很大的,同时难免会遇到标错和漏标实体的情况,在我看来,漏标和标错可以说是一个概念的,标错一般是指把非实体标实体,把实体标非实体,漏标一般是指把实体标非实体,无论是哪种情况,都会对模型产生两个方面的误导,一是实体样本的缺失,导致实体样本空间缩小;二是错标或者漏标会误导模型向相反的方向学习,就像漏标时,明明是一个实体,模型把他当作一个非实体去训练,原创 2021-03-10 17:41:07 · 1317 阅读 · 0 评论 -
挖坑
1、维特比算法和beamsearch算法的区别:https://blog.csdn.net/yiqingyang2012/article/details/54692686/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242大致说一下,细致的公式之类的后面补充:维特比针对分词来说状态是比较少的,可穷举的,就像BIO,计算时只要计算到达此时状态时的每条路径的最大值就好,原创 2021-02-19 18:23:41 · 114 阅读 · 0 评论 -
ner计算准召的坑
1、踩了个大坑,记录一下声明:不喜欢写estimator所以才踩的坑1、from tensorflow.contrib import crf 如果想使用这个函数,tensorflow的版本号要在1.14以下,1.12就可以,不要相信那些乱七八糟要求各种版本的2、log_likelihood, trans = tf.contrib.crf.crf_log_likelihood( inputs=logits, tag_indices=self.labels, seque原创 2021-01-26 16:04:29 · 482 阅读 · 1 评论 -
NLP未来发展趋势
转载《https://mp.weixin.qq.com/s/HJytXba8s0A7VWgGVXSdOw》CMU、华盛顿大学、南加州大学、MIT、MILA、密歇根大学、爱丁堡大学、DeepMind、伯克利、Apple…如果我说来自这些地方的dalao共同发表了一篇文章,你相信么?但别惊讶,在即将召开的EMNLP'20的长文列表里,我们就真找到了这样一篇“奇文”。一篇论文引得众星云集,那解决的必然不是小问题。这不,作者也很贴心地把他们所希望解决的问题斜体独行地放在了论文的首栏里——Where is N转载 2020-11-23 11:58:31 · 3094 阅读 · 0 评论 -
bert的各种变形:Roberta、ALbert、SpanBert
---先挖个坑转载 2020-11-02 19:35:15 · 1637 阅读 · 0 评论 -
事件抽取、元素识别、事件去重相关论文阅读
1、Event co-reference resolution via a multi-loss neural network without suing argument information这篇文章原创 2020-11-02 11:49:20 · 439 阅读 · 0 评论 -
bert模型裁剪及标签平滑在短文本意图识别中的效果分析
1、bert网络模型base有12层,在下游任务中耗时严重2、意图识别类似于一个分类任务,真实标签向量其中一个位置1,其余位置全是0原创 2020-03-04 17:31:15 · 964 阅读 · 2 评论 -
Batch_ normalization、Layer_ normalization、Weight_ normalization的异同
1、先说为什么会有BN: 我们在训练一个深度网络的时候,每一层的结果对整体结果都有很大影响的。而我们每次网络的输入都是batch_size大小的,这样做的目的是避免错误样本导致的梯度更新错误,而就是这样的batch_size个样本,他们在中间层的网络输出按道理来说应该分布是类似的,但是实际情况不是这样,他们的输出分布是乱七八糟的,网络层数越大,这种差异就越大,这就导致梯度更新方向手足无措,这...原创 2020-02-22 19:55:19 · 471 阅读 · 0 评论 -
SGD和Adam(转载)
https://blog.csdn.net/weixin_42398658/article/details/84525917转载 2020-01-14 15:48:03 · 3559 阅读 · 0 评论 -
阿里、腾讯、滴滴等社招面试问题整理
1、为何会梯度消失和爆炸: 消失:BPTT时,多个激活函数导数的相乘导致 解决:LSTM、BN、RELU 爆炸:权重函数初始化过大, 解决:梯度截断2、word2vec、fasttext的区别: word2vec训练方式有两种,Cbow和Skip-gram,加速方法有两种层次softmax和负采样 cbow是...原创 2020-04-20 22:34:39 · 1287 阅读 · 0 评论 -
小蜜团队万字长文《读后简略概括》
1、对话系统主要分为三类:闲聊型+任务导向型+问答型 闲聊型:就是瞎聊,想聊啥就 聊啥 任务导向型:考虑多轮对话,根据对话的不同状态和槽位值进行回复策略的选择 问答型:一问一答,识别询问者的意图,从知识库中选取答案进行返回2、任务导向型:pipeline系统+端到端系统 pipeline系统:自然语言理解(槽值意图的识别)+对话状态跟踪+...原创 2020-01-07 11:37:14 · 284 阅读 · 0 评论 -
统计学习方法学习1.0
决策树决策树是一种分类和回归方法优点:模型可读性,分类速度快过程:特征选择、决策树的生成、决策树的剪枝损失函数:正则化的极大似然函数特征选择:多个特征时,如何选择某个特征作为判断的依据信息增益: 熵定义: 熵越大,随机变量的不确定性越大。 条件熵: ...原创 2020-01-07 10:10:46 · 152 阅读 · 0 评论 -
阿里few shot learning文章的个人理解
先贴结构图:1、每次C类,每类K样本,剩下的是测试集。2、encoder层是BiLSTM+attention,得到编码向量,假设隐含层个数是96个,句子长度是30,暂不考虑batch_size,那么每个字的隐含层就是1*192向量,整个H就是30*192,那么attention的最后输出就是一个1*192的向量(计算公式如下,权重矩阵W是30*192的矩阵)。 ...原创 2020-01-05 16:55:58 · 509 阅读 · 0 评论 -
知识蒸馏
https://blog.csdn.net/xbinworld/article/details/83063726转载 2020-01-03 15:51:47 · 139 阅读 · 0 评论 -
7、文本分类算法
textCNN:前面介绍过,这里不做赘述 TextRNN:前面介绍过,也不做赘述 Attention:就是在输出之后加了一层attention,感觉大家都已经很了解了,但还是简单说一下,attention就是输出层的s(t-1)与前面所有的隐含层做乘积再softmax,得到一个权重分布的向量,再与所有隐含层相乘叠加得到c(t)(权重矩阵的计算有多种方法,点乘是一种,下面代码中的是相加),然后再...原创 2019-12-25 20:38:41 · 605 阅读 · 0 评论 -
4、实体识别BiLSTM+CRF、Lattice LSTM
自己之前写过,直接贴原地址了1、BiLSTM:https://blog.csdn.net/cuipanguo/article/details/1007470632、Lattice LSTM:https://blog.csdn.net/cuipanguo/article/details/100987939为什么要加一层CRF呢?因为做实体识别每个词开始位置B和结束位置E,中间位置M可能存...原创 2019-12-25 19:54:29 · 1046 阅读 · 0 评论 -
3、CNN、RNN、LSTM
1、CNN:就是把每个字转换成向量,再拼接成图像的样式,再用卷积核处理,再池化和拼接,再softmax得到分类结果,卷积核的作用能够整合一些上下文信息。2、RNN:前向网络中加入了前一个字的信息,隐含层嘛;能够整合更多的上下文信息,效果更好,但是会出现梯度消失和爆炸。产生的原因是什么呢?在bp过程中(这里就不推导了),当前层参数的导数是后面所有层导数跌成的结果,主要包含激活函数的导数和权值...原创 2019-12-25 18:33:44 · 755 阅读 · 0 评论 -
1、word2vec
1、以前怎么计算两句话的相似度呢?就是词袋模型 我很帅 》[1(我),1(帅),1(很),0(不)] 我不帅 》[1,1,0,1]2、现在怎么计算呢?就是把每个字转换成一个向量(也可以把一句话变成一个向量)下面是两种经典模型CBOW简单说一下:一共N个字,上下文各两个字,每个字是一个1*N向量,对应位置是1,其余全为0.然后呢乘以一个N*K的矩阵,K...原创 2019-12-25 16:54:56 · 137 阅读 · 0 评论