馨歌-CSDN博客

原创 Centos7 GPU环境搭建：tensorflow=1.14.0/2.0+ + CUDA=7.6.0 +cudnn=10.1

系统：Centos7.6 + NVIDIA Tesla V100一、NVIDIA驱动安装二、CUDA安装三、cudnn安装四、tensorflow-gpu安装五、小贴士（欢迎补充）一、NVIDIA驱动安装1、禁用系统驱动 nouveauvi /etc/modprobe.d/blacklist.conf注释掉 blacklist nvidiafb添加两行：blacklist nouveauoptions nouveau modeset=0如果没有blacklist.conf文件，执行ech

2020-05-28 17:59:37 1232

原创 Prompt Engineering：向ChatGPT提问的艺术

不同Prompt生成的汉堡图片提示（Prompt）包括传递给语言模型的指令和语境，以实现预期的任务。提示工程（Prompt Engineering）是一种策略（技巧），是开发和优化提示的实践，旨在引导人工智能语言模型（例如 ChatGPT）生成满足用户需求的输出。ChatGPT 创始人 Sam Altman 认为提示词工程是用自然语言编程的黑科技，绝对是一个高回报的技能。很多人也把提示词看做 AIGC 这个时代的源代码提示工程与 ChatGPT 之间是相互依赖的。

2023-08-11 10:03:03 332 1

原创通用语言模型GLM

作为首个针对中英双语训练并对中文进行优化的开源大规模语言模型，自3月14日开源以来，全球下载量已达300万，成为国内最火的开源语言大模型。NLU任务：为了避免训练与预测不一致，在微调NLU任务时，将标签y(position)映射成词good，输入为 x+[MASK]的prompt，进行文本生成，将生成结果在映射到y。（d）自注意力掩码，A的token可以关注自身，但不能关注B，B的token可以关注A和B的前向。该目标为生成长文本。（c）GLM自回归生成B中的内容，每个跨度以[S]开始，[E]结束。

2023-07-11 17:16:31 787

原创深度学习调参小册

通读之后，感觉更多的是一种调参的思想、原则，属于内功心法，而我们可能更需要快、准、狠的实战技能，看一眼就知道攻它哪三路（比如多分类等问题的损失函数选择）😂。当然，调参毕竟是个重经验的活，这也能让我们以后少走一些弯路。

2023-02-20 09:57:18 307

原创 DetectGPT VS ChatGPT：AI反击战？

简单高效的 DetectGPT 理解起来还是比较容易的，作者也打算将这一方法用于 LLM 生成的音频、视频和图像的检测工作中。当然它也有一些缺点：①模型改写的情况会影响曲率估计的质量；②相比于其他检测方法需要更多的计算量等，不过看效果还是比较靠谱。官方鉴别器虽不咋滴，但说明 OpenAI 目前在努力表现出踩刹车的样子，有消息称其正考虑在生成文本中加入隐藏的“水印”，或许从根源解决才是终极大法😄😄😄。xpxxp。

2023-02-15 11:09:07 5045

原创 Bert词向量的空间分布

都有理论解释了，结论自然就是Bert词向量确实存在表征退化问题，词向量存在各向异性，高频词距离原点更近，低频词训练不充分，远离原点，整体分布呈现圆锥形，导致其不适用于语义相似度任务。不过不知道该理论解释有没有说服你😄😄😄。针对此类问题，可以采用一下方法对其进行纠正，如论文[1]中加入cos正则，论文[2]中将锥形分布转化为高斯分布，《对比学习——文本匹配》其实都是为了解决这个问题，因为词向量有问题，句向量自然跑不了。（定理3证明）

2023-01-16 17:20:44 277

原创【ICLR 2023】RankCSE：基于排序学习的无监督句子表示学习

RankCSE 结构是看起来比之前的算法复杂，其实原理还是挺简单的，训练过程主要是优化排序序列，让其趋于一致，同时，从已训练好的教师模型再获取伪标签来辅助。从结果可以看出，这次卷的还是比较成功😄，对于文本检索等任务还是很有借鉴意义。

2023-01-09 14:26:17 1039 1

原创【NLP】预训练语言模型一览

预训练语言模型（pre-train language model）相信大家都已经很熟悉了，本篇主要是对的原理及几种主要的预训练语言模型（PLMs）做简要的梳理。PLMs：先在一批语料上训练模型，然后在该模型基础上继续训练或另做他用。预训练阶段：一般会在超大规模语料上，利用无监督或弱监督的方式训练模型，该模型具备两个特点：①能够学习到足够多的语言知识；②参数规模很大。微调阶段：利用预训练好的模型，去定制化训练某些任务，往往会事半功倍。预训练语言模型的优点：①预训练模型的通用性；②更好的初始化参数；

2022-12-15 10:38:58 901

转载【转载】研发工作方法论

我们在接到一个任务、项目、进行复盘、CaseStudy、Review时，就可以拉出一个表格，运用正交分解的方式，从每一个技术维度和工作要点进行自问自答。表格中，给到大家一些范例式的思考点和问题，我们需要结合具体的应用场景（可参考：下文第五部分），进行不同的思考与提问，来解决具体的问题。：纵向不重不漏的分析每一个技术维度，横向对于问题的思考能够逐级深入展开，横纵交叉后能够完整、可信和系统性给出结论。：行业对标贯穿于工作的全周期，包括：前期的调研、优劣比对，中期的验证、找差距，后期的效果复盘和总结。

2022-12-02 16:56:52 855

原创【ACL 2022】Text Smoothing：针对文本分类任务的数据增强方法

数据增强一直都是CV、NLP领域广泛应用的技术，尤其是在数据资源极少的情况下。简单来说，就是扩充训练集的规模来缓解过拟合的问题，提高深度神经网络的鲁棒性。在NLP领域，数据增强的方法通常有: 1）对文本进行增删改；2）回译（翻译到一种语言再翻译回来）；3）通过 dropout；4）mixup 技术等。Text Smoothing（文本平滑）。论文：《》数据增强省时省力，如果能够模拟出接近真实样本的分布，确实不失为一种好方法。

2022-11-28 17:46:57 1586

原创【ACL 2022】NoisyTune：来点噪声帮你更好地微调预训练语言模型

BERT自2018年横空出世以来，使得成为处理NLP任务的标配，如何有效的微调预训练语言模型（PLMs）对下游任务来说至关重要，然而，由于预训练机制，PLMs存在过拟合预训练数据和任务的风险，导致与下游任务之间存在Gap，在finetune的过程中，这种Gap可能无法消除并导致局部最优。鉴于此，今天介绍的这篇ACL 2022的论文则提出了一种简单且有效的解决方法NoisyTune，通过在微调PLMs参数之前添加一些噪声，帮助PLM减小过拟合预训练任务和数据的风险，以更好地微调下游任务。

2022-11-22 22:43:02 623

原创 StarSpace：一种通用的Embed算法

之前搞对话系统时接触了StarSpace(抛开事实不谈，首先这个名字就比Glove、Elmo、Transformer……来的有诗意)，用于计算Intent和Action的关系，效果还不错，一查发现，原来师出名门，来自Facebook AI Research2017年底发表的经典论文《》，一种通用的神经嵌入模型，要 Embedding 一切，霸气十足。当然面对不同的场景，没有万能算法，推荐StaSpace也是希望各位在遇到Embeding问题时，除了等算法外，能够多一种选择。

2022-11-14 17:49:25 512

原创【NLP】对比学习——文本匹配（二）

本篇主要拆析了SimCSE以来几种比较重要的文本增强式的对比学习算法，按时间顺序，理论上应该是距离越近的算法效果越好，但使用时，还是要结合具体的业务场景，算法没有好坏，还是用看怎么用。对于有些内容，可能叙述的不是很细致或是需要一定的知识铺垫，感兴趣的同学可以针对性的研读论文和辅助其他资料。当然，算法层出不穷，更新很快，后续出现比较重要的对比学习算法，我也会更新，也欢迎各位交流讨论。

2022-11-08 10:06:17 1937 1

原创【NLP】对比学习——文本匹配（一）

NLP方向的对比学习算法，针对文本相似度匹配任务，包括BERT-Flow、BERT-Whitening、ConSERT原理详解。

2022-11-01 11:48:48 2089

原创拉呱NLP：传统文本表示（一）

Word Embedding（词嵌入）计算机要理解人类语言，是需要翻译的，这个过程就是WordEmbedding。而计算机是理解数字类型的，所以转成数字就好了（至于计算机怎么处理数字，计算机原理的同学们可以跟上了），但转成什么样子的数字呢？这就是下面WE发展的历史了……1. 最简单的Word Embedding —— One Hot编码One Hot（独热）是基于词袋（BOW：装词的袋子）进行词表示的编码，其实就是袋子里有多少不重复的词，就给它们计数，一词一个id/index。当然还要把id转成向量的

2022-10-28 18:11:49 260

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

PsyQuant

原创 Centos7 GPU环境搭建：tensorflow=1.14.0/2.0+ + CUDA=7.6.0 +cudnn=10.1

原创 Prompt Engineering：向ChatGPT提问的艺术

原创通用语言模型GLM

原创深度学习调参小册

原创 DetectGPT VS ChatGPT：AI反击战？

原创 Bert词向量的空间分布

原创【ICLR 2023】RankCSE：基于排序学习的无监督句子表示学习

原创【NLP】预训练语言模型一览

转载【转载】研发工作方法论

原创【ACL 2022】Text Smoothing：针对文本分类任务的数据增强方法

原创【ACL 2022】NoisyTune：来点噪声帮你更好地微调预训练语言模型

原创 StarSpace：一种通用的Embed算法

原创【NLP】对比学习——文本匹配（二）

原创【NLP】对比学习——文本匹配（一）

原创拉呱NLP：传统文本表示（一）

原创将DataFrame表格以图片形式输出

原创正则表达式 python

原创知识图谱实践（一）

原创日常ERROR笔记

rasa2.0_nlu:rasa 2.0中文nlu系统建造-源码

论文研究-RASA的多Agent交互协议研究.pdf

Python-3.8.0a3.tar.xz

专业截图工具

vb程序编写软件

C++基础第二讲

空空如也