自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 复刻ChatGPT语言模型系列-(一)基座模型选取

论文标题论文地址训练目标max⁡θEz∼Zm∑i1mlog⁡pθszi∣xcorruptszimaxθ​Ez∼Zm​​∑i1m​logpθ​szi​​∣xcorrupt​szi​​pθsi∣xcorruptszi∏j1lipsij∣xcorruptszisij​pθ​si​∣xcorrupt​szi​​。

2023-05-08 22:21:56 1284 1

原创 从语言模型到ChatGPT:大型语言模型的发展和应用

大模型有一个很重要的涌现能力(Emergent ability)就是In-Context Learning(ICL),也是一种新的范式,指在不进行参数更新的情况下,只在输入中加入几个示例就能让模型进行学习。

2023-03-12 19:14:21 5139 1

原创 当ChatGPT遇见stable-diffusion,你不敢相信的创意艺术之旅!

欢迎来到一场创意的旅程,这里将聚焦于 ChatGPT 和 stable-diffusion 这两个令人激动的技术。在这篇文章中,我们将会探索这两种技术如何结合使用,为艺术创作带来全新的可能性。我们将探讨如何利用 ChatGPT 生成富有想象力的创意,以及如何使用 stable-diffusion 技术来呈现精美的中式艺术风格。我们还将介绍一些令人惊叹的案例,展示这些技术的真正潜力和创造力。无论您是一个艺术爱好者、技术探究者,还是想探索新领域的读者,本文都将为您提供一次精彩的旅程。

2023-03-05 00:05:40 10611 1

原创 进击!BERT句向量表征

为了获取最佳阅读体验,推荐移步个人博客BERT等语言模型在多数NLP任务中取得优异的表现,但如果直接取BERT输出的句向量作表征,取得的效果甚至还不如Glove词向量。Bert-flow论文中指出,产生该现象的原因是BERT模型的各向异性过高,Transformer模型的输出中,高频词汇分布集中,低频词汇分布分散,整个向量空间类似于锥形结构。more余弦相似度使用的前提是向量空间在标准正交基下,而BERT输出的句向量很明显 不符合该条件,因此直接使用BERT输出的句向量计算余弦相似度,效果表现很差。

2022-11-06 09:52:17 1434

原创 Pytorch多机多卡的多种打开方式

*module:**将完整的model封装为分布式module,后续需要调用model的方法时,可以采用module.model.xxx**device_ids:**需要并行的设备,在数据并行的情况下,表示模型副本拷贝到哪些GPU上;在模型并行的情况下,表示模型分散在哪些GPU上。**output_device:**输出结果到哪个GPU上。

2022-09-04 22:23:33 2164

原创 公式向-完美解释梯度消失与LSTM

首先抛出关键性结论:RNN模型在时间维度共享参数矩阵,因此RNN模型总的梯度等于各时间的梯度之和,g=∑gtg=\sum{g_t}g=∑gt​。RNN中总的梯度不会消失,只是远距离梯度消失,梯度被近距离梯度主导,无法捕获远距离特征。梯度消失的本质:由于RNN模型在时间维度共享参数矩阵,导致针对隐藏状态h求导时,循环计算矩阵乘法,最终梯度上出现了参数矩阵的累乘。LSTM缓解梯度消失的本质:引入门控机制,将矩阵乘法转为逐元素相乘的哈...

2022-08-28 15:18:52 527

原创 一文梳理NLP主要模型发展脉络

本文根据笔者所学知识,对NLP主要模型的发展脉络作梳理,目的在于了解主流技术的前世今生,如有理解错误的地方,麻烦指正~下面将依次介绍RNN、LSTM、GRU、Encoder-Deocder、Transformer、BERT设计的出发点,模型结构不作详细介绍。...

2022-07-31 23:14:09 1241

原创 真香~BERT在MAC Pytorch的使用

终于,Pytorch也支持MAC的硬件加速,两个字评价一下感受真香~周末笔者在自己机器上完成环境安装,笔者机器环境如下接着,笔者在该文用卷积、BERT模型对比了有无MAC硬件加速的模型运行时间。...

2022-07-16 23:26:15 698

原创 NLP技能树学习路线-(一)路线总览

NLP学习路线

2022-06-25 14:36:46 1027

原创 不要停止预训练实战(二)-一日看尽MLM

文章目录前言掩码任务掩码比例替换策略掩码方式全词掩码N-gram掩码实体掩码Span掩码代码实现欢迎大家访问个人博客:https://jmxgodlz.xyz前言本文在上文不要停止预训练实战-Roberta与Albert的基础上,进一步完成以下内容: keras预训练 N-gram掩码任务 Span掩码任务掩码任务BERT等预训练模型中掩码任务主要涉及下列要素:掩码比例替换策略掩码方式掩码比例常用掩码比例设置为15%,该比例经过许多研究,已证明该比例能够取得很好的效果。

2022-05-30 20:42:15 548

原创 不要停止预训练实战-Roberta与Albert

本文在LCQMC数据集上,再次对roberta、albert模型进行预训练,详细介绍了预训练的过程并对比了预训练前后的结果。

2022-03-20 19:46:39 2326 2

原创 神经网络调参-warmup and decay

神经网络调参详解-为什么使用warmup以及多种学习率衰减方式【附代码】

2022-01-25 21:41:13 2529

原创 解析NLP竞赛中的提分点-对抗训练

前言在NLP比赛中,对抗训练是常见的提分手段。本文将详细介绍对抗训练的场景、作用、类型、具体实现以及未来的展望。对抗训练应用场景Szegedy在14年的ICLR中提出了对抗样本的概念。对抗样本可以用来攻击和防御,而对抗训练其实是“对抗”家族中防御的一种方式,其基本原理为:通过添加扰动构建对抗样本,喂入模型一同训练,提高模型遇到对抗样本时的鲁棒性,同时一定程度也能提高模型的表现和泛化能力。对抗样本一般需要具有两个特点:相对于原始输入,所添加的扰动是微小的;能使模型犯错。对抗训练的公式如下:

2022-01-20 21:25:41 1296 2

原创 Python数据分析-数据可视化(二)

欢迎大家访问个人博客:https://jmxgodlz.xyz文章目录前言Matplotlib 折线图格式调整标签线条颜色线条形状折点样式线条透明度前言看到有些论文插图十分简洁美观,于是便摸索一下如何美化一下折线图绘图。本文将在前文Python数据分析-数据可视化的基础上,介绍折线图格式的调整。本文使用的画图工具为matplotlib,相关API可访问python matplotlib文档。Matplotlib 折线图格式调整首先,贴一下文档中折线图绘制的附加参数表:Property

2022-01-09 19:07:51 882 2

原创 2022预训练的下一步是什么

本文旨在温故2021年本人算法经历,并展望2021年大模型的发展与2022大模型的去向分析。

2022-01-03 18:15:20 350

原创 深度学习基础-神经网络权重初始化

文章目录一、两个问题1. 全零初始化是否可以2. 参数全部相同初始化是否可以二、参数初始化方式1. 预训练初始化2. 随机初始化2.1 random initialization2.2 Xavier initialization2.3 He initialization3. 固定初始化参考链接一、两个问题假设3层神经网络,输入节点v0,第一层节点v1,v2,v3 第二层节点v4,v5 第三层节点v6。其中vi=f(ai),i=4,5,6 f为激活函数。前向传播:1. 全零初始化是否可以一般情

2021-09-29 15:15:51 338

原创 Nvidia-Docker配置python3与pytorch环境

文章目录一、Docker与Nvidia-docker安装TIPS:为了避免下载源过慢,建议添加中科大源/清华源1. Docker安装2. Nvidia-Docker 安装二、docker内安装python与pytorch环境三、nvidia-docker 运行1. docker run 参数介绍2. docker 常用命令参考链接一、Docker与Nvidia-docker安装TIPS:为了避免下载源过慢,建议添加中科大源/清华源1. sudo cp /etc/apt/sources.list /et

2021-09-28 17:08:19 987

原创 AC自动机-Python实现

文章目录1、Trie前缀树用途:字符串排序统计,效率优于哈希算法本质:N叉树2. AC自动机参考链接:https://www.cnblogs.com/nullzx/p/7499397.html1、Trie前缀树用途:字符串排序统计,效率优于哈希算法本质:N叉树class TrieNode(): def __init__(self): self.data = {} self.is_word = Falseclass Trie: def __init

2021-09-23 16:52:06 657

原创 Pytorch 多卡训练原理与实现

文章目录Pytorch 多卡训练一、多卡训练原理二、单机多卡训练三、多机多卡训练后端初始化初始化init_method初始化rank和world_size四、模型保存参考链接Pytorch 多卡训练一、多卡训练原理多卡训练流程一般如下:指定主机节点主机节点划分数据,一个batch数据平均分到每个机器上模型从主机拷贝到各个机器每个机器进行前向传播每个机器计算loss损失主机收集所有loss结果,进行参数更新将更新后参数模型拷贝给各个机器二、单机多卡训练使用torch.nn.Da

2021-09-07 20:12:26 2545 1

原创 Tensorflow编程问题-Loss Nan

1、在分类问题中,我们经常使用到交叉熵损失函数,需要注意的是:由于交叉熵损失函数里有对数计算,因此对数的真数部分不能为0,所以我们在计算计算交叉熵时需要给这个真数部分限定一个范围,否则会出现数值下溢的问题,我们可以采取的办法是使用tf.clip_by_value(input,min_value,max_value)函数来限定真数的下限;2、另一种情况是在训练开始时后出现损失函数值为nan,这种情况一般是由于学习率太大,我们需要减小学习率;或者是在训练一段时间后出现nan,这种情况可能是由于梯度爆炸导致的

2020-12-05 17:05:29 199

原创 图神经网络学习感悟

图神经网络学习感悟1.图学习初感受2.图游走算法2.1 前置知识2.2 目的2.3 算法介绍2.3.1 DEEPWALK2.3.2 NODE2VEC2.3.3 METAPATH2VEC3. 图卷积网络GCN4. 图注意力网络GAT本文章为本人在百度图神经网络7日打卡营学习总结1.图学习初感受传统深度学习难以处理不规则的数据,使用图学习可以方便的处理不规则数据。图学习可以将非结构化数据转为结构化表示。图学习算法脑图:2.图游走算法2.1 前置知识Word2vec词向量算法中的SkipGram

2020-11-28 00:42:14 372

原创 Python数据分析-数据可视化

一. Matplotlib 基本概念Matplotlib是python的一个数据可视化工具库。特点:专门用于开发2D图表(包括3D图表), 操作简单。可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。二. Matplotlib三层结构三.Matplotlib 基本使用1. 折线图import matplotlib.pyplot as plt# 图形...

2020-01-03 11:17:03 1222

原创 OpenCV中处理遇到的一些小错与注意点

留作个人笔记,以供后需。1.opencv只支持float32的图像显示和操作,然后float64是numpy的数据类型,opencv中不支持。在某些时候报错,需要将矩阵转为float32类型。2. cv2.imread读出的图像为BGR模式而非RGB。3. 图像uint8与float类型转换,uint8区间范围为0-255,而在对图片进行对比度增强,灰度等图片操作时,会引起图片像素值...

2019-10-10 09:14:07 323

原创 Python数据分析-异常数据处理

本文为博主在处理异常数据的笔记与总结,如有理解不当之处,欢迎指正。个人博客连接: JMX的个人博客本篇文章主要是解决单变量数据集中的异常点分析,本代码中对异常数据的处理方式为删除,剔除异常数据,也可以适当修改,对异常数据进行自己需要的操作。1. 四分位法原理介绍:首先计算出第一四分位数(Q1)、中位数(第二四分位数Q2)、第三四分位数(Q3)。中位数也就是将一组数字按从小到大的顺序...

2019-09-17 16:34:34 2829

原创 SVM支持向量机与SMO学习笔记(二)[数学推导]

在上一篇文章SVM支持向量机与SMO学习笔记(一)中,已经将待求解的未知量由w变成了α,这一节主要介绍求解α的常用算法-SMO算法,序列最小化(Sequence Minimal Optimization)算法,由John Platt于1996年发布。1. 任务提取在上一篇中,我们需要求解的目标函数与约束条件为:通过构造拉格朗日函数,利用KKT条件进行求解出的极值条件为:1.∂L(...

2019-09-07 18:11:58 348

原创 SVM支持向量机与SMO学习笔记(一)[数学推导]

本文为博主在学习支持向量机时的笔记与总结,如有理解不当之处,欢迎指正。SVM简介支持向量机SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的泛化能力。VC维(外文名Vapnik-Chervonenkis Dimension)的概念是为了研...

2019-08-25 16:03:47 873 1

原创 Coursera Machine Learning 学习笔记(二)Linear Regression

文章为博主学习Coursera上的Machine Learning课程的笔记,来记录自己的学习过程,欢迎大家一起学习交流个人博客连接: JMX的个人博客02:Linear Regression仍然以房价预测作为示例,具体示例仍需见课程内容。符号含义:m 为数据集的大小x’s为输入数据y’s为对应的目标输出结果(x,y)为所有训练数据(xi, yi)为具体第i行数据,第i个训...

2019-03-02 21:10:34 254

原创 Coursera Machine Learning 学习笔记(一)Introduction

文章为博主学习Coursera上的Machine Learning课程的笔记,来记录自己的学习过程,欢迎大家一起学习交流个人博客连接: JMX的个人博客01:Introduction机器学习的定义Arthur Samuel(1959)Machine Learning:“Field of study that gives computers the ability to learn...

2019-03-02 10:56:26 1475

原创 中文情感词典的构建

首先,国外英文的情感分析已经取得了很好的效果,得益于英文单词自身分析的便捷性与英文大量的数据集 WordNet。但由于中文的多变性,语义的多重性与数据集的缺乏,使得国内的情感分析暂落后于国外。本文将记录博主在项目中构建情感词典的经验,欢迎大家指正。我们首先将情感词典分为通用情感词典与专用情感词典。1.通用情感词典的构建通用情感词典的构建主要是通过将目前开源的情感词典整合起来,筛去重复和无...

2019-02-28 17:41:24 13294 12

转载 用栈非递归实现二叉树的遍历

参考链接:https://www.jianshu.com/p/12848eef3452栈实现树的前序遍历void preTraversal(TreeNode* root){ if(root==NULL) return ; stack<TreeNode*> s; TreeNode *current; s.push(root); ...

2019-02-03 15:48:31 3370

原创 Numpy使用小记

矩阵截取import numpy as npa = np.array([[1,2,3,4],[5,6,7,8]]) # 返回ndarray对象print(a.shape[0]) # 矩阵行数与列数# 矩阵按行列截取print(a[0,:]) # 获取第一行 任意列,返回的也是一个ndarray对象# 矩阵按条件截取b = a[a>5]print(b)print(a&g...

2019-01-31 20:36:59 3005

原创 Matplotlib 使用小记

以下为代码示例,功能在注释内:import matplotlib.pyplot as pltfrom pylab import mplimport numpy as npimport matplotlib.pylab as plbmpl.rcParams['font.sans-serif'] = ['KaiTi'] # 解决中文文本显示不出的问题,动态进行配置'''黑体 SimH...

2019-01-22 20:19:16 6724

转载 C++ 容器使用

参考:http://www.runoob.com/w3cnote/cpp-vector-container-analysis.html具体介绍功能可见上述链接,代码综合实例如下:#include<iostream>#include<vector>#include<algorithm>using namespace std;int main(){...

2019-01-21 19:23:37 208

原创 Python Excel 读写及追加写入(xlrd、xlwt、openpyxl、XlsxWriter)

首先贴出四种方法适用范围比较:  XlsxWriter xlrd xlwt openpyxl 介绍 可以创建XLSX文件 用来读取xls文件,是python-excel的三大模块 用来写xls文件,是python-excal的三大模块 可以读写XLSX、XLSM文件 读 × √ × √ 写 √ ×...

2019-01-19 21:31:08 81013 11

原创 Tensorflow-gpu安装(附Centos7.4安装)

环境:Centos7.4+cuda9.0+cudnn7.4.1首先踩过的坑:1.安装完Nvidia驱动后无法进入图形化界面2.安装完cuda后,import tensorflow时报ImportError: libcublas.so.9.0: cannot open shared object file: No such file...问题第一个坑可在下文中找到解决答案第二个坑...

2018-12-06 17:00:16 11707

原创 汇编语言-入门练习

练习题目:1.    通过键盘输入一个小写字母,找出对应的前导字母和后续字母,再按顺序显示这三个字母。2.    编写一个程序,要求比较数组ARRAY中的三个16位补码,并根据比较结果在终端上显示如下信息:1)    如果三个数都不相等,显示0;2)    如果三个输油两个相等,显示1;3)    如果三个数都相当,显示2。3.    从键盘输入10个字符,然后以与键入相反的顺序将1...

2018-07-22 16:45:38 12647

原创 Django Restframework 里的小插曲

Django REST framework 是一个强大且灵活的工具包,用以构建Web APIs学习其最好的方法就是浏览开发文档了但在学习过程中也出现了不少小插曲在照着官网例程里面进行用户验证权利时ch出现了bug上面显示1054,“Unknown column ‘……owner_id’in field list"数据库也出现提供默认值,导致不能运行这就很纳闷了,照着官网的例...

2018-07-22 16:18:45 11286

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除