自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (7)
  • 收藏
  • 关注

原创 Centos7 GPU环境搭建:tensorflow=1.14.0/2.0+ + CUDA=7.6.0 +cudnn=10.1

系统:Centos7.6 + NVIDIA Tesla V100一、NVIDIA驱动安装二、CUDA安装三、cudnn安装四、tensorflow-gpu安装五、小贴士(欢迎补充)一、NVIDIA驱动安装1、禁用系统驱动 nouveauvi /etc/modprobe.d/blacklist.conf注释掉 blacklist nvidiafb添加两行:blacklist nouveauoptions nouveau modeset=0如果没有blacklist.conf文件,执行ech

2020-05-28 17:59:37 1172

原创 Prompt Engineering:向ChatGPT提问的艺术

不同Prompt生成的汉堡图片提示(Prompt)包括传递给语言模型的指令和语境,以实现预期的任务。提示工程(Prompt Engineering)是一种策略(技巧),是开发和优化提示的实践,旨在引导人工智能语言模型(例如 ChatGPT)生成满足用户需求的输出。ChatGPT 创始人 Sam Altman 认为提示词工程是用自然语言编程的黑科技,绝对是一个高回报的技能。很多人也把提示词看做 AIGC 这个时代的源代码提示工程与 ChatGPT 之间是相互依赖的。

2023-08-11 10:03:03 248 1

原创 通用语言模型GLM

作为首个针对中英双语训练并对中文进行优化的开源大规模语言模型,自3月14日开源以来,全球下载量已达300万,成为国内最火的开源语言大模型。NLU任务:为了避免训练与预测不一致,在微调NLU任务时,将标签y(position)映射成词good,输入为 x+[MASK]的prompt,进行文本生成,将生成结果在映射到y。(d)自注意力掩码,A的token可以关注自身,但不能关注B,B的token可以关注A和B的前向。该目标为生成长文本。(c)GLM自回归生成B中的内容,每个跨度以[S]开始,[E]结束。

2023-07-11 17:16:31 553

原创 深度学习调参小册

通读之后,感觉更多的是一种调参的思想、原则,属于内功心法,而我们可能更需要快、准、狠的实战技能,看一眼就知道攻它哪三路(比如多分类等问题的损失函数选择)😂。当然,调参毕竟是个重经验的活,这也能让我们以后少走一些弯路。

2023-02-20 09:57:18 243

原创 DetectGPT VS ChatGPT:AI反击战?

简单高效的 DetectGPT 理解起来还是比较容易的,作者也打算将这一方法用于 LLM 生成的音频、视频和图像的检测工作中。当然它也有一些缺点:①模型改写的情况会影响曲率估计的质量;②相比于其他检测方法需要更多的计算量等,不过看效果还是比较靠谱。官方鉴别器虽不咋滴,但说明 OpenAI 目前在努力表现出踩刹车的样子,有消息称其正考虑在生成文本中加入隐藏的“水印”,或许从根源解决才是终极大法😄😄😄。xpxxp。

2023-02-15 11:09:07 4931

原创 Bert词向量的空间分布

都有理论解释了,结论自然就是Bert词向量确实存在表征退化问题,词向量存在各向异性,高频词距离原点更近,低频词训练不充分,远离原点,整体分布呈现圆锥形,导致其不适用于语义相似度任务。不过不知道该理论解释有没有说服你😄😄😄。针对此类问题,可以采用一下方法对其进行纠正,如论文[1]中加入cos正则,论文[2]中将锥形分布转化为高斯分布,《对比学习——文本匹配》其实都是为了解决这个问题,因为词向量有问题,句向量自然跑不了。(定理3证明)

2023-01-16 17:20:44 211

原创 【ICLR 2023】RankCSE:基于排序学习的无监督句子表示学习

RankCSE 结构是看起来比之前的算法复杂,其实原理还是挺简单的,训练过程主要是优化排序序列,让其趋于一致,同时,从已训练好的教师模型再获取伪标签来辅助。从结果可以看出,这次卷的还是比较成功😄,对于文本检索等任务还是很有借鉴意义。

2023-01-09 14:26:17 861

原创 【NLP】预训练语言模型一览

预训练语言模型(pre-train language model)相信大家都已经很熟悉了,本篇主要是对的原理及几种主要的预训练语言模型(PLMs)做简要的梳理。PLMs:先在一批语料上训练模型,然后在该模型基础上继续训练或另做他用。预训练阶段:一般会在超大规模语料上,利用无监督或弱监督的方式训练模型,该模型具备两个特点:①能够学习到足够多的语言知识;②参数规模很大。微调阶段:利用预训练好的模型,去定制化训练某些任务,往往会事半功倍。预训练语言模型的优点:①预训练模型的通用性;②更好的初始化参数;

2022-12-15 10:38:58 815

转载 【转载】研发工作方法论

我们在接到一个任务、项目、进行复盘、CaseStudy、Review时,就可以拉出一个表格,运用正交分解的方式,从每一个技术维度和工作要点进行自问自答。表格中,给到大家一些范例式的思考点和问题,我们需要结合具体的应用场景(可参考:下文第五部分),进行不同的思考与提问,来解决具体的问题。:纵向不重不漏的分析每一个技术维度,横向对于问题的思考能够逐级深入展开,横纵交叉后能够完整、可信和系统性给出结论。:行业对标贯穿于工作的全周期,包括:前期的调研、优劣比对,中期的验证、找差距,后期的效果复盘和总结。

2022-12-02 16:56:52 634

原创 【ACL 2022】Text Smoothing:针对文本分类任务的数据增强方法

数据增强一直都是CV、NLP领域广泛应用的技术,尤其是在数据资源极少的情况下。简单来说,就是扩充训练集的规模来缓解过拟合的问题,提高深度神经网络的鲁棒性。在NLP领域,数据增强的方法通常有: 1)对文本进行增删改;2)回译(翻译到一种语言再翻译回来);3)通过 dropout;4)mixup 技术等。Text Smoothing(文本平滑)。论文:《》数据增强省时省力,如果能够模拟出接近真实样本的分布,确实不失为一种好方法。

2022-11-28 17:46:57 1463

原创 【ACL 2022】NoisyTune:来点噪声帮你更好地微调预训练语言模型

BERT自2018年横空出世以来,使得成为处理NLP任务的标配,如何有效的微调预训练语言模型(PLMs)对下游任务来说至关重要,然而,由于预训练机制,PLMs存在过拟合预训练数据和任务的风险,导致与下游任务之间存在Gap,在finetune的过程中,这种Gap可能无法消除并导致局部最优。鉴于此,今天介绍的这篇ACL 2022的论文则提出了一种简单且有效的解决方法NoisyTune,通过在微调PLMs参数之前添加一些噪声,帮助PLM减小过拟合预训练任务和数据的风险,以更好地微调下游任务。

2022-11-22 22:43:02 572

原创 StarSpace:一种通用的Embed算法

之前搞对话系统时接触了StarSpace(抛开事实不谈,首先这个名字就比Glove、Elmo、Transformer……来的有诗意),用于计算Intent和Action的关系,效果还不错,一查发现,原来师出名门,来自Facebook AI Research2017年底发表的经典论文《》,一种通用的神经嵌入模型,要 Embedding 一切,霸气十足。当然面对不同的场景,没有万能算法,推荐StaSpace也是希望各位在遇到Embeding问题时,除了等算法外,能够多一种选择。

2022-11-14 17:49:25 384

原创 【NLP】对比学习——文本匹配(二)

本篇主要拆析了SimCSE以来几种比较重要的文本增强式的对比学习算法,按时间顺序,理论上应该是距离越近的算法效果越好,但使用时,还是要结合具体的业务场景,算法没有好坏,还是用看怎么用。对于有些内容,可能叙述的不是很细致或是需要一定的知识铺垫,感兴趣的同学可以针对性的研读论文和辅助其他资料。当然,算法层出不穷,更新很快,后续出现比较重要的对比学习算法,我也会更新,也欢迎各位交流讨论。

2022-11-08 10:06:17 1517 1

原创 【NLP】对比学习——文本匹配(一)

NLP方向的对比学习算法,针对文本相似度匹配任务,包括BERT-Flow、BERT-Whitening、ConSERT原理详解。

2022-11-01 11:48:48 1752

原创 拉呱NLP:传统文本表示(一)

Word Embedding(词嵌入)计算机要理解人类语言,是需要翻译的,这个过程就是WordEmbedding。而计算机是理解数字类型的,所以转成数字就好了(至于计算机怎么处理数字,计算机原理的同学们可以跟上了),但转成什么样子的数字呢?这就是下面WE发展的历史了……1. 最简单的Word Embedding —— One Hot编码One Hot(独热)是基于词袋(BOW:装词的袋子)进行词表示的编码,其实就是袋子里有多少不重复的词,就给它们计数,一词一个id/index。当然还要把id转成向量的

2022-10-28 18:11:49 223

原创 将DataFrame表格以图片形式输出

将excel的统计分析表格定时发到钉钉群1、钉钉不支持推送表格形式数据,所以要将表格转成图片形式,找了很多方法,还是 pip install dataframe_image包最方便import dataframe_image as dfi

2021-07-19 20:58:29 2409

原创 正则表达式 python

语法说明表达式匹配结果\d数字:[0-9]a\dga8g\D非数字:[^\d]a\Dga哈g\s空白字符:[\t\r\n\f\v]a\sga g\S非空白字符:[^\S]a\Sgadg\w单词字符:[A-Za-z0-9_]a\wcafg\W非单词字符:[^\W]a\Wga g。

2021-01-19 16:23:30 177

原创 知识图谱实践(一)

从零搭建知识图谱(一)

2020-07-08 21:46:59 371 1

原创 日常ERROR笔记

1、port:443报错Failed to connect to raw.githubusercontent.com:443(https://zhuanlan.zhihu.com/p/115450863)

2020-06-04 11:28:36 1175 1

rasa2.0_nlu:rasa 2.0中文nlu系统建造-源码

参考知乎: :

2021-05-27

论文研究-RASA的多Agent交互协议研究.pdf

在甘油连续发酵生产中提高1,3-丙二醇(1,3-PD)的产量是至关重要的,然而,3-羟基丙醛(3-HPA)的积累会引起发酵过程的停止。考虑到3-HPA对细胞生长和对酶的活性的抑制作用,提出一个新的数学模型来描述利用克雷伯氏菌连续发酵生产1,3-PD的过程。为了确定模型中的动力学参数,提出了参数辨识模型,并证明了参数的可辨识性。最后构造了改进的差异演化算法求解该参数辨识模型,数值结果表明该动力学模型能更好地描述微生物连续发酵过程,并且算法也是有效的。

2021-05-13

Python-3.8.0a3.tar.xz

官网python安装包,解决官网下载慢的问题 相较几十个积分资源,5积分良心,当网盘用吧, 不知道为啥,其他版本的总是已存在,已存在还那么多

2020-08-06

专业截图工具

很好用的截图软件,可以用于各种形状的截图,以及截长图,不受任何限制!

2014-05-18

vb程序编写软件

用于编写VB程序,属于标准版的,适合学生学习使用

2012-12-12

C++基础第二讲

开始对C++面向对象程序设计开始初步的学习,作为与C设计语言最大不同的“类”要首先引入,掌握了“类”,就掌握了C++的大部。

2012-11-26

C++面向对象课件

面向对象程序设计基础入门,其中对C++进行了简单的阐述,对其中重要的知识点进行了概括,以及和C程序设计的不同点

2012-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除