![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 50
leap_ruo
这个作者很懒,什么都没留下…
展开
-
大模型数据集融入代码逻辑
大模型的强大通用能力的背后,离不开量级巨大且优质的数据训练集。其中,大模型的推理能力除了得益于刚才提到的大量优质数据集,还可来源于代码逻辑。原创 2023-12-09 09:25:04 · 570 阅读 · 0 评论 -
data2text范式和text2text范式
在自然语言处理中,常见两种范式:data2text范式和text2text范式。那么它们具体指什么呢?原创 2023-08-26 10:02:23 · 391 阅读 · 0 评论 -
评价指标lawrouge
Rouge是文本自动摘要领域摘要评价技术的通用指标之一,通过统计模型生成的摘要与人工摘要之间重叠的基本单元,评判模型生成摘要的质量。总之,中文lawrouge和ROUGE在算法原理和目的上基本一致,但是在匹配项的处理以及数据集的选择等方面有所不同。,通常用于评估中文文本摘要的质量。与ROUGE相比,中文lawrouge改变了匹配未知词汇和处理中文字符等方面,更适用于中文语言处理的评估。中文lawrouge对中文字符和未知词汇的处理更加合理,可以对中文文本进行分词和字符级别的处理。原创 2023-08-26 09:21:25 · 330 阅读 · 0 评论 -
评价指标BLUE了解
BLEU指标根据生成的句子与人工参考句子之间的词、短语和n-gram匹配来计算模型的性能。因此,实际中通常使用bleu-1,bleu-2,bleu-3和bleu-4等四个BLEU指标来计算短语匹配的精度。然而,它存在着一些缺点,比如可能会倾向于短而不是长的句子,不能很好地衡量语法和语义问题,因此,通常需要结合其他评估指标一起使用来评估模型性能。BLEU指标具有较好的可解释性,直接基于n-gram重叠度来衡量生成文本和参考文本之间的相似度。获取参考文本中每个n元组的最大数量,并视为生成文本的最多可能匹配数。原创 2023-08-26 09:14:28 · 1553 阅读 · 0 评论 -
调用chatGML-6B原始模型报错:RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseF
根据chatGML-6B官网提示,准备做简单的预训练,样本数据用的也是官方提供的。这个可以根据本地模型大小判断是否真正被clone下来,如果没用采用以下方式。原创 2023-07-15 09:43:49 · 2509 阅读 · 0 评论 -
安装TensorFlow时报错 zsh: illegal hardware instruction python
下载地址:https://driver.google.com/drive/folders/1oSipZLnoeQB@Awz8U68KYeCPsULy_dQ7T。如果是安装TensorFlow 1.x版本,一般不会出现这个问题,可以直接使用pip安装。下载tensorflow-2.4.1-py3-none-any.whl文件。原创 2023-07-15 09:22:48 · 798 阅读 · 0 评论 -
ChatGPT前身GPT的论文-译文
GPT论文,ChatGPT,小样本学习,零样本学习,zero-shot,few-shot,自然语言任务原创 2023-07-08 10:28:07 · 478 阅读 · 0 评论 -
安装openai环境 步骤及问题解决
安装openai环境,使用大模型。解决报错:ERROR: No matching distribution found for pandas>=1.2.3、 解决报错AttributeError:module 'openai' has no attribute'Chatcompletion'原创 2023-05-24 22:06:25 · 7205 阅读 · 0 评论 -
GLUE 数据集介绍
来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解(NLU)基准和分析平台,也就是GLUE(General Language Understanding Evaluation),自然所有数据集均为英文,包含 CoLA、SST-2、MRPC、STSB、QQP、MNLI、QNLI、RTE、WNLI原创 2022-11-30 21:15:03 · 560 阅读 · 0 评论 -
将模型参数打印出来——checkpoint模型、pb模型及其savemodel格式模型
背景有时候我们需要探查模型参数,或者在调用模型提示参数错误时,也需要查看模型参数来定位问题,以下是针对不同存储格式的模型,对参数做读取操作checkpoint模型#!/usr/bin/env python# -*- coding: UTF-8 -*-import tensorflow as tffrom tensorflow.python import pywrap_tensorflowdef show_ckp_params(): model_dir = "./output/cho原创 2022-05-09 21:03:38 · 1440 阅读 · 0 评论 -
tensor和ndarray(一般由numpy生成)互转,tensorflow版 vs. torch版
TensorFlow和Torch的对比可以参考 TensorFlow vs. Pytorch在做网络处理时,经过预测处理之后的数据经常是numpy生成的数据格式,有时候和网络层交互时需要和tensor互转,以下提供几个tensor和ndarray之间互转的样例import tensorflow as tfimport numpy as npimport torch# 生成ndarraya_n = np.arange(10)# ==> TensorFlow 版本# ndarray -原创 2022-02-20 16:02:25 · 2265 阅读 · 0 评论 -
Longformer: The Long-Document Transformer
前言:《Longformer: The Long-Document Transformer》于2020年4月发表,相较于Transformer,Longformer利用local attention和global attention在长文本任务的处理上大大减低了时间负责度和空间负责度。论文:https://arxiv.org/pdf/2004.05150.pdf源码:https://github.com/allenai/longformer摘要基于Transformer的模型不能处理长文本,因为其原创 2021-07-25 22:09:05 · 463 阅读 · 0 评论 -
tensorflow v1.x 和v2.x之间的差别
随着TensorFlow的版本升级,版本相关的各种各样问题还是不断出现,之前写过一个关于应对升级问题的文章TensorFlow版本迁移问题,发现在具体操作的时候还是会出现文章不能cover的问题。以下是解决部分tf接口的常见方法,供参考~# 对于顶层的一些接口,比如placeholder,truncated_normal,get_variable等使用如下方法tf.random_uniform ===> tf.randomztf.placeholder ===> tf.c原创 2021-04-18 20:12:50 · 517 阅读 · 0 评论 -
TensorFlow版本迁移问题
随着TensorFlow 2.x的发布,很多TensorFlow 1.x的API接口在高版本中被弃用,那么我们在使用中,尤其是看之前的一些大佬源码时,会出现无法复现代码的问题。所以很多人常常遇到:tensorflow2.0版本无法使用1.0版本的api对于这个问题,以下是简单的解决方法,仅供参考~方法一:逐个API查找打开tensorflow官网,从API这一栏下的选择version选择1.x的版本,比如r1.15打开之后,便是对应版本的API接口文档,我们以tf.nn.dynamic_r原创 2021-01-09 18:48:44 · 880 阅读 · 0 评论 -
论文浅析-Unsupervised Embedding Learning via Invariant and Spreading Instance Feature
摘要本文主要研究无监督embedding问题,该问题要求在低维度embedding空间有效地度量样本之间的相似性。基于从分类有监督学习汇中观察到正集中而负分散的特性(即:同类别样本距离相近,从而会集中在一起;不同类别样本距离较大,从而会分散分布),我们提出利用有监督样本来近似这个特性,旨在学习数据扩展不变性和样本扩展性。为了达到这个目标,我们提出基于样例的softmax embedding方法,该方法直接优化softmax函数上的“真是”的实例。与现有所有方法相比,它的学习速度更快、准确率更高。提出的.原创 2020-11-15 19:13:14 · 1536 阅读 · 0 评论 -
LDA主干线
LDA算是NLP中相对比较难的一个,涉及到诸多统计方面的理论。虽然从开始准备到这篇文章发布,断断续续准备了近一个月,还是只能把其中主干拎出来,很多细节还需要慢慢沉淀,今天先把这篇粗糙的文章发出来,以示对过去一个月零碎时间的交代。LDA(Latent Dirichlet Allocation)是主题模型的一种,它基于词袋模型BOW(Bag of words), 与BOW相对的是n-gram模型,前者不考虑词的先后顺序,而后者考虑。因此,我们最终得到的模型——topic-word共现矩阵没有序列的信息。同其原创 2020-09-13 17:36:28 · 221 阅读 · 0 评论 -
jieba的几个分词接口:cut、lcut、posseg.cut、posseg.lcut
jieba的几个分词接口:cut、lcut、posseg.cut、posseg.lcutcutcut提供最基本的分词功能,返回的结果是个生成器generator,可通过迭代的方法访问各个分词lcutlcut和cut方法的区别是:lcut返回的是list。也可以通过list(jieba.cut()) 来等价jieba.lcut()prosseg的方法posseg.cut 和 posseg.lcut的区别雷同,只不过posseg还提供了词性,方便对句法做分析s = '我们都是小青蛙原创 2020-08-28 19:42:43 · 9991 阅读 · 5 评论 -
再谈word2vec
word2vec是Google于2013年开源推出的一个用于获取word vector的工具包,已经有7年的历史了。随着技术的不断更新迭代,word2vec渐渐淡出了从业者(尤其是“后浪”们)的视线。然而,作为曾经借用word2vec做语义提取并取得比较理想效果的小白,还是想详细的介绍下经典算法。word2vec包括两种模型CBOW(Continuous Bag of words Model)和skip-gram(Continuous Skip-gram Model).前者是通过上下文context(w)原创 2020-08-23 20:43:24 · 387 阅读 · 0 评论 -
浅谈经典--回溯
回溯法是设计递归过程的一种重要方法,它的求解过程实质上一个先序遍历一颗“状态树”的过程,只是这个课树不是遍历前预先建立的,而是隐含在遍历过程中的。 ————严蔚敏版《数据结构》回溯的过程就是在试探每一种可能,“能进则进,不能则退,退而求其他”。通过有序的试探,把每种可能的情况都遍历一遍。说到回溯思想,那么我们不得不提“八皇后问题”,下面我们以八皇后问题,来展示回溯的思想。在数据存储上,我们可以用一个二维list来表示A[][]皇后的位置,比如A[i][j]表示第i行第j列是皇后位置。但是考虑到条件限制原创 2020-08-09 18:34:08 · 332 阅读 · 2 评论 -
Google天马(PEGASUS)模型
前言:谷歌研究人员提出了PEGASUS模型,用于提取文章摘要。今天就对PEGASUS模型做简单介绍。论文源码预训练目标研究人员假设,预训练目标越接近下游任务,那么就能更快更好的微调效果。为此,他们设定下游语言任务为“提取文本摘要”,而预训练目标为“生成间隙句子”(Gap Sentences Generation)。Gap Sentences Generation(GSG)研究人员提出了一个自监督的预训练来生成文本摘要, 重点在于预训练的时候的目标是把生成间隙句子(GSG), 所以在提取文本摘要的原创 2020-07-26 20:58:37 · 4081 阅读 · 2 评论 -
TensorFlow vs. Pytorch
TensorFlow和pytorch是目前两个比较受欢迎的深度学习框架,二者都被广泛地应用在业界和学术领域。本文对二者进行简单的梳理对比。TensorFlow 由Google开发,于2015年发布。是静态框架,它需要创建图计算,并且创建之后不可更改,通过session会话进行数据输入和计算。pytorch 由Facebook开发,于2017年发布。是动态框架,和python的逻辑是一样的,要对变量做任何操作都是灵活的。整个流程:计算图、传入变量数据、求梯度、参数更新等操作,对于编程者都有很强的可读性,代原创 2020-07-19 21:13:39 · 708 阅读 · 1 评论 -
关于multi-head的 一点思考
Google于2017年提出了Transformer,而提出该模型的论文名为《Attention is all you need》,之前翻译该论文的时候并没有太多注意attention,更多的放在了整体的模型结构上。最近面试了一个候选人,他介绍项目用到的AOA时,提到了从“横向”和“纵向”两个维度做softmax,突然让我对Transformer中的multi-head attention有了新的求知欲(虽然这两个事情联系不大,但的确对之前不在意的细节产生了好奇)。从文章名可以看出attention在Tr原创 2020-07-05 21:41:03 · 2134 阅读 · 0 评论 -
译文 Attention Is All You Need
摘要主流的序列转换模型基于负责的递归或者卷积神经网络,包括编码器和解码器。性能最好的模型也是通过注意力机制链接编码器和解码器。我们提出来一种新的简单的网络结构——Transformer——仅仅基于注意力机制,完全不需要递归和卷积网络。在两个机器翻译任务上的实验表明,这些模型在质量上优于其他模型,且具有更高并发性和更少的训练时间。我们模型在WMT 2014英语翻德语的任务上取得了28.4 BLEU,提升了现有最好的结果,包括以2 BLEU由于集成方法。在WMT 2014英语翻法语的任务上,用8个GPU训练了原创 2020-06-07 21:04:26 · 763 阅读 · 0 评论 -
余数hash和一致性hash
在分布式系统中,为了将数据均匀的分布到各个节点,保证节点之间的均衡,一般会通过hash的方式将数据分配的到各个节点。今天简单描述两种哈希方式:余数hash和一致性hash。余数哈希余数哈希是一般通过对数值取模的方式来获得hash值,比如数据为367,有20个子节点,那么367会根据367%20=7,分配到编号为7的子节点。那么接下来的问题是实际处理的数据基本不是数值,所以需要根据业务场景自定义一个映射关系,将数据(基本)均匀的映射到某个数值空间。优点:方法简单高效缺点:容错性和扩展差,即面对节点个数原创 2020-06-06 22:16:56 · 329 阅读 · 0 评论 -
浅谈对话系统
随着社会发展,我们的生活中方方面面都充斥着各种对话系统,常见提供对话系统的组织有:运营商、电商、政府服务窗口等,刚才提到的例子一般都属于任务型对话系统。何为任务型的对话系统呢?指的就是用户通常通过该对话系统获取某些(领域)知识,比如话费套餐、商品咨询以及办事流程等。大部分任务型对话系统基于一系列规则堆积实现,系统会通过特定的对用户的询问,获取大量槽值,根据槽值来确定策略结果,然后使用NLG来生成策略结果的文本描述,如图1自助订票简化版样例。但是随着对话系统的不断应用,单纯知识获取的任务型对话系统也满足原创 2020-05-30 22:32:30 · 587 阅读 · 0 评论 -
译文:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
摘要BERT (Devlin et al., 2018)和RoBERTa (Liuet al., 2019)已经在句子对回归任务上取的了最新最好的效果,比如语义文本相似任务(STS)。然而,这需要将两个句子的都喂给网络,这就引起大量的计算消耗:从你1万个句子中找相思对,就需要用BERT进行5千万推力计算(耗时约65小时)。BERT的结构不合适语义相似搜索,同样也不适用于类似聚类的无监督任务。在本论文中,我将呈现预训练BERT的改进版–Sentence-BERT (SBERT),使用二元或者三元网络结构来原创 2020-05-24 14:07:13 · 2309 阅读 · 3 评论 -
译文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Bert: 针对语言理解双向深度transformer的预训练模型摘要本文介绍一种新的语言表达模型-BERT(Bidirectional Encoder Representations from Transformers).与近期语言表达模型 (Peters et al., 2018a; Radford et al., 2018)不同的是,Bert通过在所有层上调节双向上下文来预训练未标定数据的双向深度模型。结果,预训练的bert模型仅靠额外输出层的微调,且没有大量的针对任务做结构调整,就在多种任务上取原创 2020-05-16 13:37:53 · 1697 阅读 · 0 评论