codex 从github上爬下小于1MB的python文件,去除掉那些可能是自动生成的、平均每行长度大于100的、最大行长度大于1000的、几乎不含字母数字的。经过清洗处理后,最终得到1。:将清洗过后的数据集送入GPT3架构的模型中,。注意这里不再是基于GPT3做微调,也不再使用GPT3训好的权重。而是整个重新训练。
prompt范式 1-范式发展历程:P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)--特征工程 P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)--架构工程P3. 预训练,精调范式 (Pre-train, Fine-tune)--目标工程 P4. 预训练,提示,预测范式(Pre-train, Prompt, Predict)--prompt挖掘工程从
2021-04-12 NLP=自然语言处理和CV相比,nlp最大的特点是特征是离散的,不像cv中是一幅图,nlp是一个个的句子简单说几点nlp的难点: 1、相同意思的句子表达有多种:我爱踢足球;足球是我的爱好;我的爱好之一是足球 2、相同词在不同语境中意思不同:我喜欢苹果;我喜欢用苹果公司的产品 3、词的先后顺序直接影响语意:我爱你;你爱我 4、多加一个字直接影响语意:我爱吃西瓜;我不爱吃西瓜 5、语句中噪声多,真正影响语意的可能只有几...
NER实体识别漏标对模型性能的影响及优化方法 论文地址:https://arxiv.org/pdf/2012.05426.pdf1、先简单介绍一下一些基础的东西。我们在进行实体识别(NER)的时候,标注成本是很大的,同时难免会遇到标错和漏标实体的情况,在我看来,漏标和标错可以说是一个概念的,标错一般是指把非实体标实体,把实体标非实体,漏标一般是指把实体标非实体,无论是哪种情况,都会对模型产生两个方面的误导,一是实体样本的缺失,导致实体样本空间缩小;二是错标或者漏标会误导模型向相反的方向学习,就像漏标时,明明是一个实体,模型把他当作一个非实体去训练,
挖坑 1、维特比算法和beamsearch算法的区别:https://blog.csdn.net/yiqingyang2012/article/details/54692686/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242大致说一下,细致的公式之类的后面补充:维特比针对分词来说状态是比较少的,可穷举的,就像BIO,计算时只要计算到达此时状态时的每条路径的最大值就好,
ner计算准召的坑 1、踩了个大坑,记录一下声明:不喜欢写estimator所以才踩的坑1、from tensorflow.contrib import crf 如果想使用这个函数,tensorflow的版本号要在1.14以下,1.12就可以,不要相信那些乱七八糟要求各种版本的2、log_likelihood, trans = tf.contrib.crf.crf_log_likelihood( inputs=logits, tag_indices=self.labels, seque
NLP未来发展趋势 转载《https://mp.weixin.qq.com/s/HJytXba8s0A7VWgGVXSdOw》CMU、华盛顿大学、南加州大学、MIT、MILA、密歇根大学、爱丁堡大学、DeepMind、伯克利、Apple…如果我说来自这些地方的dalao共同发表了一篇文章,你相信么?但别惊讶,在即将召开的EMNLP'20的长文列表里,我们就真找到了这样一篇“奇文”。一篇论文引得众星云集,那解决的必然不是小问题。这不,作者也很贴心地把他们所希望解决的问题斜体独行地放在了论文的首栏里——Where is N
事件抽取、元素识别、事件去重相关论文阅读 1、Event co-reference resolution via a multi-loss neural network without suing argument information这篇文章
半天时间学习SQL语言 之前很少使用,但是换了新的工作,虽然还在远程办公,但发现用到的比较多,所以花半天时间学习下基本语言,主要是从w3school中学习(后续会逐步补充)1、sql主要分为两个部分:dml和ddl。DML主要是查询和更新,都是处理表中数据,包含select、update、insert、delete(删除表中数据);DDL更上一层,对表与表之间关系进行处理,如drop(删除表)、create、alte...
Batch_ normalization、Layer_ normalization、Weight_ normalization的异同 1、先说为什么会有BN: 我们在训练一个深度网络的时候,每一层的结果对整体结果都有很大影响的。而我们每次网络的输入都是batch_size大小的,这样做的目的是避免错误样本导致的梯度更新错误,而就是这样的batch_size个样本,他们在中间层的网络输出按道理来说应该分布是类似的,但是实际情况不是这样,他们的输出分布是乱七八糟的,网络层数越大,这种差异就越大,这就导致梯度更新方向手足无措,这...
阿里、腾讯、滴滴等社招面试问题整理 1、为何会梯度消失和爆炸: 消失:BPTT时,多个激活函数导数的相乘导致 解决:LSTM、BN、RELU 爆炸:权重函数初始化过大, 解决:梯度截断2、word2vec、fasttext的区别: word2vec训练方式有两种,Cbow和Skip-gram,加速方法有两种层次softmax和负采样 cbow是...
小蜜团队万字长文《读后简略概括》 1、对话系统主要分为三类:闲聊型+任务导向型+问答型 闲聊型:就是瞎聊,想聊啥就 聊啥 任务导向型:考虑多轮对话,根据对话的不同状态和槽位值进行回复策略的选择 问答型:一问一答,识别询问者的意图,从知识库中选取答案进行返回2、任务导向型:pipeline系统+端到端系统 pipeline系统:自然语言理解(槽值意图的识别)+对话状态跟踪+...
统计学习方法学习1.0 决策树决策树是一种分类和回归方法优点:模型可读性,分类速度快过程:特征选择、决策树的生成、决策树的剪枝损失函数:正则化的极大似然函数特征选择:多个特征时,如何选择某个特征作为判断的依据信息增益: 熵定义: 熵越大,随机变量的不确定性越大。 条件熵: ...