NLP
文章平均质量分 59
学习框架为cs224n
DecafTea
定量,归类(框架),融合,体系
展开
-
待学:jieba分词,Regular Expressions
jieba分词https://www.cnblogs.com/zhbzz2007/p/6076246.htmlPython标准模块—Regular Expressionshttps://www.cnblogs.com/zhbzz2007/p/6813836.html原创 2021-04-03 10:10:07 · 237 阅读 · 0 评论 -
HMM代码 - HanLP
HanLP HMM 代码,包括概率计算(计算观测序列的条件概率)、学习(最有可能的模型参数)、预测问题(给定观测序列和模型参数,最有可能的状态序列)。/* * <author>Han He</author> * <email>me@hankcs.com</email> * <create-date>2018-06-09 7:47 PM</create-date> * * <copyright file="HiddenM原创 2021-03-31 14:54:50 · 479 阅读 · 0 评论 -
医药知识图谱
问答系统:原创 2021-03-31 09:58:05 · 644 阅读 · 0 评论 -
腾讯一面:BERT模型压缩,BERT变种,数据分桶
BERT模型蒸馏有哪些方法?https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/109039823BERT变种https://blog.csdn.net/qq_39006282/article/details/107251957数据分桶https://blog.csdn.net/fang156239305/article/details/107315666/原创 2021-03-23 11:52:50 · 486 阅读 · 0 评论 -
bert-as-service & BERT FAQ
官方github:https://github.com/hanxiao/bert-as-service#q-the-cosine-similarity-of-two-sentence-vectors-is-unreasonably-high-eg-always–08-whats-wronghttps://mp.weixin.qq.com/s/E60wUHkHo-Gj3wb9Denuag原创 2021-03-22 17:55:03 · 255 阅读 · 0 评论 -
BERT分词,wordpiece,BPE,jieba,pkuseg
BERT分词摘自:https://blog.csdn.net/u010099080/article/details/102587954BERT 源码中 tokenization.py 就是预处理进行分词的程序,主要有两个分词器:BasicTokenizer 和 WordpieceTokenizer,另外一个 FullTokenizer 是这两个的结合:先进行 BasicTokenizer 得到一个分得比较粗的 token 列表,然后再对每个 token 进行一次 WordpieceTokenizer,原创 2021-03-08 11:45:09 · 4817 阅读 · 0 评论 -
NLP面试准备
HMM, MEMM, CRF p132CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像分词、词性标注,以及命名实体标注隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉。条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征.原创 2021-03-05 16:22:16 · 209 阅读 · 1 评论 -
Character-level recurrent sequence-to-sequence model (char-level机器翻译,seq2seq模型,LSTM)
理解encoder_outputs, state_h, state_c = encoder(encoder_inputs)的三个输出:https://huhuhang.com/post/machine-learning/lstm-return-sequences-stateinputs = tf.keras.layers.Input(shape=(3, 1))lstm = tf.keras.layers.LSTM(1, return_state=True)(inputs)model = tf.ke原创 2021-03-03 18:46:38 · 176 阅读 · 0 评论 -
中文NER问题的解决方案
baseline: BiLSTM+CRF or BERT+BiLSTM+CRF模型之外,如何提升标注效果?在垂直领域,一个不断积累、不断完善的实体词典对NER性能的提升是稳健的,基于规则+词典也可以快速应急处理一些badcase对于通⽤领域,可以多种分词工具和多种句法短语⼯具进行融合来提取候选实体,并结合词典进行NER。此外,怎么更好地将实体词典融入到NER模型中,也是一个值得探索的问题(如嵌入到图神经网络中提取特征[3])。如何在模型层面提升NER性能?NER是一个重底层的任务,我们应原创 2021-03-01 15:08:22 · 1602 阅读 · 0 评论 -
句向量
词向量得到句向量1)bag of words求平均2)TF-IDF加权平均3)SIF加权平均That is, the MLE is approximately a weighted average of the vectors of the words in the sentence.Note that for more frequent words w, the weight a/(p(w) + a) is smaller, so this naturally leads to a down.原创 2021-02-28 20:53:50 · 591 阅读 · 0 评论 -
python数据处理常用函数(持续更新)
enumerate(sequence, [start=0])参数:sequence – 一个序列、迭代器或其他支持迭代对象。start – 下标起始位置。返回值:列出数据和数据下标,一般用在 for 循环当中。for i, data in enumerate(train_loader): inputs, labels = data print(inputs,shape) print(labels.shape) break# print output: # torch.Size([.原创 2021-02-12 20:59:01 · 1340 阅读 · 0 评论 -
jieba源码解析:jieba.cut
文章转载自:https://www.cnblogs.com/aloiswei/p/11567616.htmljieba分词有三种模式:全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现,搜索引擎模式对应cut_for_search,且三者均可以通过参数HMM决定是否使用新词识别功能。...原创 2021-02-13 10:24:49 · 1437 阅读 · 0 评论 -
to-do list
1. 知识图谱(NER-NRE, 文本匹配):工业界如何解决NER问题?12个trick,与你分享~标注数据存在错误怎么办?MIT&Google提出用置信学习找出错误标注(附开源实现)一文了解NLP中的数据增强方法标注样本少怎么办?「文本增强+半监督学习」总结(从PseudoLabel到UDA/FixMatch)nlp中的实体关系抽取方法总结文本匹配相关方向打卡点总结(数据,场景,论文,开源工具)2. 预训练模型:NLP的游戏规则从此改写?从word2vec, ELMo到BERT谈原创 2021-02-04 08:25:30 · 150 阅读 · 0 评论 -
BERT网站
Transformer,BERT,ELMO详解:https://www.zhihu.com/people/Adherersun/postsHuggingface简介及BERT代码浅析: https://zhuanlan.zhihu.com/p/120315111Adding domain specific vocabulary(来自BERT issues):https://github.com/google-research/bert/issues/9https://wmathor.com/inde原创 2021-01-28 21:18:35 · 533 阅读 · 1 评论 -
Transformer,BERT,ELMO
Transformer,BERT,ELMO详解:https://www.zhihu.com/people/Adherersun/posts非常详细,有问题可以从这里面找找答案!Question 1: 关于transformer decoder端input in the training phase and inference phase:1)利用了teacher forcing:training阶段用ground truth,每个time step新加入上一时刻的ground truth作为curr原创 2021-01-27 19:12:06 · 272 阅读 · 0 评论 -
sentence similarity vs text (multi-sentence) similarity
1. sentence similarity1.1 方法列举BERTUniversal Sentence EncoderELECTRA embedding1.2 介绍1.2.1 BERTWith the advancement in language models, representation of sentences into vectors has been getting better lately. That might give some good result in your c原创 2021-01-26 17:54:18 · 203 阅读 · 0 评论 -
BERT代码阅读
reference:http://fancyerii.github.io/2019/03/09/bert-codes/https://netycc.com/2018/12/05/%E5%88%A9%E7%94%A8bert%E6%9E%84%E5%BB%BA%E5%8F%A5%E5%90%91%E9%87%8F%E5%B9%B6%E8%AE%A1%E7%AE%97%E7%9B%B8%E4%BC%BC%E5%BA%A6/原创 2021-01-26 09:23:31 · 158 阅读 · 0 评论 -
BERT 输出:句向量,字符向量
有什么区别?BERT输出的句向量是什么样的?output_layer = model.get_sequence_output()# 这个获取每个token的output 输出[batch_size, seq_length, embedding_size] 。如果做seq2seq 或者ner 用这个output_layer = model.get_pooled_output() # 这个获取句子的output:输出[batch_size, embedding_size] ,为 [CLS] 对应的那个hid原创 2021-01-26 09:21:48 · 1602 阅读 · 0 评论 -
NER
NER和POS tagging有什么差别?Part-of-Speech(POS) tagging and Named Entity Recognition(NER) are two different problems.Part-of-Speech tagging aims on identifying which grammatical group a word belongs to, so whether it is a NOUN, ADJECTIVE, VERB, ADVERBS etc. bas原创 2021-01-25 23:17:25 · 194 阅读 · 0 评论 -
ERNIE
摘自:https://cloud.tencent.com/developer/article/1701172Transformer在两个地方进行了权重共享:(1)Encoder和Decoder间的Embedding层权重共享;(2)Decoder中Embedding层和FC层权重共享。ERNIE利用的仍然是 transformer 的encoder 部分,且结构一样,但是并不共享权重,区别如下:Transformer: 6 encoder layers, 512 hidden units, 8 a原创 2021-01-25 22:51:35 · 366 阅读 · 0 评论 -
Transformer 权重共享
转载自:https://zhuanlan.zhihu.com/p/132554155Transformer在哪里做了权重共享,为什么可以做权重共享?Transformer在两个地方进行了权重共享:(1)Encoder和Decoder间的Embedding层权重共享;(2)Decoder中Embedding层和FC层权重共享。对于(1),《Attention is all you need》中Transformer被应用在机器翻译任务中,源语言和目标语言是不一样的,但它们可以共用一张大词表,对于两种原创 2021-01-25 22:43:47 · 5752 阅读 · 0 评论 -
图数据库 vs sql数据库 优缺点
原创 2021-01-25 22:30:19 · 2488 阅读 · 0 评论 -
LSTM为什么用sigmoid,tanh不用relu?
https://cloud.tencent.com/developer/article/14989591. why is an activation function not being zero-centred an disadvantage?Say there are two parameters w1 and w2. If the gradients of two dimensions are always of the same sign, it means we can only move r原创 2021-01-25 19:05:53 · 4556 阅读 · 0 评论 -
XLNet
1. 论文:https://arxiv.org/pdf/1906.08237.pdfXLNet是一个语言模型。和ELMO,GPT,BERT一脉相承,同时借鉴Transformer-XL,故称XLNet(XL含义为衣服尺码,意思是模型横向更宽),其参数规模远大于BERT2. 基本思路:通过排列组合的方式将一部分下文单词放到上文单词的位置,但实际形式还是一个从左到右预测的自回归语言模型。3. 优化:结合了自回归(AR , Autoregressive)模型和自编码(AE , Autoencodin原创 2021-01-24 11:28:20 · 125 阅读 · 0 评论 -
自回归AR LM vs 自编码AE LM
AR极大似然函数的含义:h表示使用transformer或RNN模型单向传递来的上文context representation。maximize probability of xt given x1:t-1就是maximize softmax(hT e(xt)), x’是所有xt的可能,即vocabulary里的所有单词。AE极大似然函数的含义:H表示来自上下文的context representation。...原创 2021-01-24 10:11:52 · 536 阅读 · 0 评论 -
天池NLP赛道top指南——文本匹配
转载自:https://mp.weixin.qq.com/s?__biz=Mzg2OTUyMzg5OQ==&mid=2247490140&idx=1&sn=482a5eee2bd39bb29a2a37ea65c4c8ba&chksm=ce9a9288f9ed1b9e080fc12e835f1fd531a3b6315f87408f181a7615c624b16cadb4b9062aa0&scene=132#wechat_redirect开源代码:https://gi转载 2021-01-22 10:43:25 · 1092 阅读 · 0 评论 -
预训练语言模型
『预训练语言模型分类 』单向特征、自回归模型(单向模型):ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0双向特征、自编码模型(BERT系列模型):BERT/ERNIE/SpanBERT/RoBERTa双向特征、自回归模型“XLNet『各模型之间的联系 』传统word2vec无法解决一词多义,语义信息不够丰富,诞生了ELMOELMO以lstm堆积,串行且提取特征能力不够,诞生了GPTGPT 虽然用transformer堆积,但是是单向的,诞生了BERTBERT虽然双向,但原创 2021-01-22 10:18:28 · 2295 阅读 · 0 评论 -
Transformer - layer norm
Encoder structure2. layer normalization:什么是covariate shift?Covariate shift is the change in the distribution of the covariates specifically, that is, the independent variables.在机器学习实践中,我们一定要注意训练数据集和实际情况产生的数据分布不同而带来的影响。batch norm vs layer nor.原创 2021-01-18 23:43:21 · 265 阅读 · 0 评论 -
Transformer - positional encoding: explanation & implementation
1. ExplanationTo address this, the transformer adds a vector to each input embedding. These vectors follow a specific pattern that the model learns, which helps it determine the position of each word, or the distance between different words in the sequenc原创 2021-01-18 12:37:09 · 123 阅读 · 1 评论 -
GPT-2(2)
本文是机器之心:完全图解GPT-2:看完这篇就够了(二)的梳理总结。第三部分:GPT-2全流程是本文的核心重点。1. 自注意力机制(不使用掩模)2. 图解掩模自注意力机制:使用注意力掩模矩阵我们通常使用注意力掩模矩阵来实现这种屏蔽操作。不妨想象一个由四个单词组成的序列(例如「robot must obey orders」(机器人必须服从命令))在语言建模场景中,这个序列被分成四步进行处理——每个单词一步(假设现在每个单词(word)都是一个词(token))。由于这些模型都是批量执行的,我们原创 2021-01-15 20:54:52 · 2429 阅读 · 0 评论 -
Transformer-decoder-only model:GPT-2(1)
TransformerEncoder原始 transformer 论文中的编码器模块可以接受长度不超过最大序列长度(如 512 个单词)的输入。如果序列长度小于该限制,我们就在其后填入预先定义的空白单词(如上图中的)。Decoder解码器在自注意力(self-attention)层上还有一个关键的差异:它将后面的单词掩盖掉了。但并不像 BERT 一样将它们替换成特殊定义的单词,而是在自注意力计算的时候屏蔽了来自当前计算位置右边所有单词的信息。只能看到已生成的单词。举个例子,如果我们重点原创 2021-01-15 20:00:56 · 6049 阅读 · 0 评论 -
RNN的简单框架实现
转载自:gaoyueace的CSDN博客:https://blog.csdn.net/gaoyueace/article/details/80484234循环神经网络的主要用途是处理和预测序列数据,为了刻画一个序列当前的输出与之前信息的关系。从网络结构上看,RNN会利用之前的信息影响后面结点的输出,也就是RNN的隐藏层之间的结点是有连接的,隐藏层的输入不仅包含输入层的输入,还包含上一时刻隐藏层的输出。这张图就是RNN循环体按时间展开后的结构。X为网络输入,A为隐藏层状态,h为输出。在每一个时刻会有一个转载 2021-01-08 10:12:36 · 301 阅读 · 0 评论 -
HMM Decoding Problem -- Viterbi Algorithm
见同名纸质笔记。课件参考https://www.cl.cam.ac.uk/teaching/1617/MLRD/slides/slides9.pdf原创 2021-01-04 16:01:22 · 89 阅读 · 0 评论 -
Teacher Forcing
How does Teacher Forcing work?Without Teacher Forcing, we would feed “birds” back to our RNN to predict the 3rd word. Let’s say the 3rd prediction is “flying”. Even though it makes sense for our model to predict “flying” given the input is “birds”, it is原创 2021-01-02 11:19:39 · 288 阅读 · 0 评论 -
命名实体识别论文复现
Reference:[1]【机器学习】【白板推导系列】https://www.bilibili.com/video/BV1aE411o7qd?p=104[2] LSTM-CRF 知识图谱、信息抽取 https://www.bilibili.com/video/BV1K54y117yD/?spm_id_from=333.788.videocard.1[3] 论文:https://arxiv.org/pdf/1508.01991.pdf...原创 2021-01-01 10:38:48 · 610 阅读 · 0 评论 -
BERT:一种预训练Transformer‘s encoder的方法
Bidirectional Encoder Representations from Transformers (BERT)原创 2020-12-23 20:13:27 · 846 阅读 · 0 评论 -
Transformer
attention-based encoder-decoder sequence model architecture (A is RNN or LSTM or GRUattention本质是对value进行加权求和。value表示对应word的信息。权重alpha表示信息的重要性,权重越大越attention于对应的value上。2. Attention without RNN两种:attention layer, self-attention layer(1)attention layer.原创 2020-12-22 22:54:20 · 271 阅读 · 0 评论 -
Attention mechanism
待填坑原创 2020-12-22 17:10:28 · 106 阅读 · 0 评论 -
seq2seq model: encoder-decoder + example: Machine Translation
seq2seq model: encoder-decoder1.1. its probablistic model1.2. RNN encoder-decoder model architecturecontext vector c = encoder’s final state i.e. fixed global representation of the input sequenceteacher forcing: During training phase, at time step t,原创 2020-12-22 17:09:36 · 278 阅读 · 0 评论 -
Text Generation自动文本生成(LSTM实现)
step 1:训练模型(train the network)训练样本是是从什么文风的文章截取的,这个模型在predict阶段就会生成什么样文风的文本。1)准备training example pairs:(input_segment, target_character)。target_character是input_segment之后的character。例如,从一篇3000词的莎士比亚文章中截取training example pairs,设定input segment length = 30,st原创 2020-12-19 18:52:58 · 1108 阅读 · 2 评论