Bigcrab__-CSDN博客

原创 Python深度学习基于Tensorflow（12）实战生成式模型

然后，正向传播到特定层。具体来说就是使用梯度上升的方法可视化网络每一层的特征，即用一张噪声图像输入网络，反向更新的时候不更新网络权重，而是更新初始图像的像素值，以这种“训练图像”的方式可视化网络。卷积神经网络不同层学到的图像特征是不一样的，靠近输入端的卷积层学到的是图像比较具体，局部的特征，如位置，形状，颜色，纹理等。是一样的，其主要还是因为风格转换涉及到的样本数量太少，基本就是两张图片之间进行转化，因此对参数进行梯度更新是不现实的，我们只能利用预训练模型，提取图片特征然后定义特征之间的损失进而进行操作；

2024-05-20 20:33:08 803

原创 Python深度学习基于Tensorflow（11）生成式深度学习

其实不然，在深度学习当中，不同的预测任务可能有着不同的标签，且标签的形态可能因任务而改变（例如，分类任务的标签往往是一串序列，而分割任务的标签则是一张图像）；同样，不同的预测任务可能有着不同的特征，特征的形态与架构的形态息息相关，当架构确认之后，其他形态的特征将无法输入架构（比如，我们无法将序列输入到CNN中，也无法将图像输入到DNN中）。因此，想要将真实标签作为特征的一部分输入到生成器和判别器来训练，我们必须要将真实标签转换为当前架构可以接受的形态，更具体地来说，转变为与输入架构的特征完全一致的形态。

2024-05-19 16:20:13 571

原创 Python深度学习基于Tensorflow（10）目标检测

选择性搜索（Selective Search, SS）方法是通过图像中的纹理，边缘，颜色等信息对图像进行自底向上的分割，然后对分割区域进行不同尺度的合并，在合并过程中，每生成一个新的区域就产生一个候选框，区域肯定是不规则，我们通过选取区域的最大外接矩阵作为候选框区域，这种方法速度较慢；普通池化固定的是操作，处理后的尺寸是动态的；由于神经网络操作需要输入的尺寸一样才能进行一些常规的算法操作，而框定的图像由于边框回归，锚框比例和大小的作用下，出现图像大小不一致的情况，这里我们需要把图像大小固定为某一尺寸；

2024-05-15 16:33:35 351

原创 Python深度学习基于Tensorflow（9）注意力机制

注意力机制的主要思想是将注意力集中在信息的重要部分，对重要部分投入更多的资源，以获取更多所关注目标的细节信息，抑制其他无用信息；在注意力机制的背景下，我们将自主性提示称为查询(Query)。对于给定任何查询，注意力机制通过集中注意力(Attention Pooling)选择感官输入(Sensory Input)，这些感官输入被称为值(Value)。每个值都与其对应的非自主提示的一个键(Key)成对。通过集中注意力，为给定的查询(自主性提示)与键(非自主性提示)进行交互，从而引导选择偏向值；

2024-05-12 22:22:23 1750 10

原创 Python深度学习基于Tensorflow（8）自然语言处理基础

与前后顺序有关的数据称为序列数据，对于序列数据，我们可以使用循环神经网络进行处理，循环神经网络RNN已经成功的运用于自然语言处理，语音识别，图像标注，机器翻译等众多时序问题；RNN模型有以下类别：对于全连接模型，X∈RndX \in \mathcal{R}^{nd}X∈Rnd，WX∈RdhW_X \in \mathcal{R}^{dh}WX∈Rdh，B∈R1hB \in \mathcal{R}^{1h}B∈R1h ：H=f(XWX+B)H=f(XW_X+B)H=f(XWX+B)有H∈RnhH \in

2024-05-09 23:59:32 523

原创 Python深度学习基于Tensorflow（7）视觉处理基础

假设我们需要识别一张图像，我们不可能去关注所有的像素，假设目标是一只马，我们关注的是：它有几条腿，几只眼睛，站着还是坐着等等；同时，为了丰富图像的色彩，加入了通道这一概念，通道一般有三个，由三原色组成：RGB 红色，绿色，蓝色；感受野指的是某层某一输出的值依赖于原输入的值的范围，可以得到随着卷积层变多，感受野越大；在神经网络中，还有一个参数叫步幅，默认步幅为1，这个很好理解，在计算卷积的时候，隔一个还是多个进行卷积计算，超出就不管了；分别为1，L，P，RGB，RGBA，CMYK，YCbCr，I，F。

2024-05-09 18:12:10 1411

原创 Python深度学习基于Tensorflow（6）神经网络基础

不同的初始值，会导致模型收敛到不同的极值点，这里的XOR问题应该已经说明了问题，常见的模型权重初始化有零值初始化，随机初始化，均匀分布初始化，正态分布初始化，正交分布初始化等等，一般来说采用正态分布或者均匀分布的初始值，经过实践证明，这能带来更好的效果；从信息论的角度来看，由于数据处理不等式的存在，在正向传播的过程中，由于层数的加深，每一层所包含的信息准层减少，而残差连接保证了后一层是前一层的信息加上处理后的信息；类似于权重参数，是可以学习的，也就是说，一个BatchNormal层是有两个学习权重的；

2024-05-08 21:12:01 1398

原创 Python深度学习基于Tensorflow（5）机器学习基础

机器学习的流程如下所示：根据问题类型选择损失函数。

2024-05-08 00:08:09 783

原创 Python深度学习基于Tensorflow（4）Tensorflow 数据处理和数据可视化

TFRecord 内部使用了 Protocol Buffer 二进制数据编码方案，它只占用一个内存块，只需要一次性加载一个二进制文件的方式即可，简单，快速，尤其对大型训练数据很友好。假设有一万张图像， TFRecord 可以将其保存成 5 个.tfrecords 文件（具体保存成几个文件，要看文件大小），这样我们在读取数据时，只需要进行5 次数据读取。例如：在一个图像流水线（pipeline）中，一个元素可以是单个训练样本，它们带有一个表示图像数据的张量和一个标签组成的数据对（pair）。

2024-05-07 14:03:48 893

原创 Python深度学习基于Tensorflow（3）Tensorflow 构建模型

这里以CIFAR-10为数据集，CIFAR-10为小型数据集，一共包含10个类别的 RGB 彩色图像：飞机（airplane）、汽车（automobile）、鸟类（bird）、猫（cat）、鹿（deer）、狗（dog）、蛙类（frog）、马（horse）、船（ship）和卡车（truck）。这里不用书中给的CIFAR-10数据，直接使用TensorFlow自带的玩意导入数据，可能需要魔法，其实TensorFlow中的数据特别的经典。模型的结构如下，现在使用低阶，中阶，高阶 API 来构建这一个模型。

2024-05-06 21:57:58 723 1

原创 Python深度学习基于Tensorflow（2）Tensorflow基础

首先是Tensorflow的安装，由于可能会出现版本冲突，最好在conda环境安装，同时，目前windows版本好像只支持2.10，更高的版本目前只支持linux系统。GPU涉及到显卡，这里可以在命令行输入nvidia-smi获取GPU信息!list 在 numpy 中叫 ndarray，在 tensorflow 中叫 tensor，其性能上的主要区别是：ndarray只能在CPU上计算，而tensorflow不仅可以在CPU上计算，也可以在GPU/TPU上计算。

2024-05-06 16:50:36 900

原创 Python深度学习基于Tensorflow（1）Numpy基础

numpy的重要性不言而喻，一般不涉及到GPU/TPU计算，都是用numpy，常见的np就是这个玩意。其特点就是快！其实如果不涉及到深度学习，还有一个库是很重要的，scipy，集成了很多的东西。numpy对象一般有三个属性：ndarray.ndim、ndarray.shape、ndarray.dtype。分别表示数据维度，数据形状，数据类型。

2024-05-05 20:19:43 798 1

原创 ssh远程访问windows系统下的jupyterlab

网上配置这一堆那一堆，特别乱，找了好久整理后发在这里由于既想打游戏又想做深度学习，不舍得显卡性能白白消耗，这里尝试使用笔记本连接主机OpenSSH 最初是为 Linux 系统开发的，现在也支持包括 Windows 和 macOS 在内的多种操作系统。

2024-05-03 04:17:13 1409 2

原创 LangChain：1. Prompt基本使用

但是ChatPromptTemplate将其分解得具体了，其有两种表达形式，一种使用列表，一种使用更具体的ChatMessagePromptTemplate，AIMessagePromptTemplate，HumanMessagePromptTemplate。利用示例让LLM模仿输出进而获得一个更好的效果在prompt工程中很常见，但是大量的实例会造成一个问题，那就是模型的输入长度是由限制的，大量的实例可能会导致在input_variables输入时出现长度过长模型无法输入的问题。：根据文本长度来选择。

2024-05-01 21:51:59 622

原创在html中使用数学公式latex

来自 https://katex.org/docs/autorender 可以自动渲染。

2024-04-27 21:55:17 714

原创微博热搜榜单采集，微博热搜榜单爬虫，微博热搜榜单解析，完整代码（话题榜+热搜榜+文娱榜和要闻榜）

这里从F12中可以发现，文娱榜和要闻榜直接一个请求就可以获取，但是在解析的过程中，发现还是需要cookie的，所以这里需要自己获取cookies；在response中发现数据无需要清理，直接在表格中获取一下自己需要的参数即可，在这里还是把url添加一下，有的人根本不看前文怎么获取的；从F12中发现，这个请求是Get型的请求，什么参数都不需要，估计微博是直接放弃了。这里需要更换cookies。直接将得到的数据进行处理，

2024-03-11 14:07:36 721

原创 chapter 3 函数极限

ϵ∼δ：函数在某点的：函数极限的：函数极限的：函数极限的：函数极限的：函数极限的：函数极限的：函数的，Heine。

2024-03-11 12:41:51 383

原创 vue3 使用 mock 模拟服务器接口

在前端开发中，需要模拟请求或者数据来做一些简单的调试，这里可以使用mock来模拟服务器接口；在src目录下创建mock文件夹，然后在mock文件夹中放置两个文件，一个。这里需要安装两个包，一个是。返回的是一个数组就好了。

2024-03-08 15:10:06 784

原创 Vue3 五天速成

五天弄完，马上做项目练手！

2024-03-02 00:07:44 946

原创 chapter 2 数列极限

比较简单

2024-02-21 19:40:56 321

原创 chapter 1 实数集与函数

第一章内容，比较简单

2024-02-21 18:56:15 889

原创前端进度条组件NProgress

个人感觉写在axios的请求拦截器和响应拦截器里比较好，因为切换路由一般都会触发页面的created()事件发起axios请求。或者网上很多人写在了router.beforeEach和router.afterEach，这种写法只能切换路由时才有效果。最好在index.html也写上，单页面首次打开速度慢，这样写打开登陆页时也才会显示！写在axios的请求拦截器和响应拦截器里，每次只要触发axios请求就加载进度条。// 给页面设置请求加载进度条效果。

2024-02-20 18:52:15 532

原创关于RoPE旋转位置编码的理解

这里直接贴的原文，转置的原因为我这里的顺序与原文相反；从某种意义上来说相当于拓维，所以我们可以两两构成。，从某种意义上拓展了其维度，这也是我使用。这里我以自己的理解解释一下这张图以及等式。首先我们以二维为例子，为了方便我们令。，单数取实部，双数取虚部这里有。是可以对应平面直角坐标系的，即。，从欧拉函数中我们可以发现。表示的是标量，如果使用。这里是原文中出现的错误。，采取的处理方式是先。上面说了，标量直接与。

2024-02-19 10:44:55 875

原创【RetNet】论文解读：Retentive Network: A Successor to Transformer for Large Language Models

论文开头提出了一个不可能三角，分别是training parallelism, low-cost inference, good performance；以往的架构只能获得三种优势中的两种，而RetNet可以全部获得；首先是Linear Transformer ：其主要处理的方式是对k和v进行处理，例如[Linformer]论文实现：Linformer: Self-Attention with Linear Complexity_linformer网络结构-CSDN博客。

2024-02-18 23:40:39 1019

原创【ChatIE】论文解读：Zero-Shot Information Extraction via Chatting with ChatGPT

首先information extration 的目的是从非结构化的文本中提取出结构化的信息，并将结构化的信息转化为结构化的数据格式，信息提取主要由三块任务构成：三元组提取，实体命名识别，事件提取 entity-relation triple extract (RE), named entity recognition (NER), event extraction (EE)；在一般的处理工作中，以RE任务中PURE模型举例子。

2024-02-17 17:42:13 1349 2

原创 [GPT-2]论文解读：Language Models are Unsupervised Multitask Learners

GPT-2 是一个有15亿参数的模型，GPT-2的想法是转向一个通用的系统，不需要进行数据集的标注就可以执行许多的任务；因为数据集的创建是很难的，我们很难继续将数据集的创建和目标的设计扩大到可能需要用现有的技术推动我们前进的程度。这促使我们去探索执行多任务学习的额外设置。当前性能最好的语言模型系统是通过预训练模型和微调完成的，预训练主要是自注意力模块去识别字符串的语意，而微调主要是通过语意去得出不同的结果；这样一来，我们在执行不同的任务时，只需要替换掉微调的那部分结构就可以；

2024-02-17 15:52:28 1699

原创 nvm, node.js, npm, yarn 安装配置

nvm 是一个 node.js 管理工具，可以快捷下载安装使用多个版本的node.js。npm, yarn 都是 node.js 的包的管理工具。卸载找到安装目录中的uninstall文件即可。node.js 是 js 文件的运行环境。, 下载下方红框中的exe文件安装即可。删除 ~/.bashrc 文件中的。点击 github 链接。前端基本环境配置完毕！

2024-01-19 22:30:33 604

原创 ES6 速通

简单速通一遍es6

2024-01-18 18:41:09 1202

原创 conda 安装, 配置以及使用

conda 是 python 的环境管理工具包，非常好用，特别是 miniconda 相对于 conda 不需要安装其他的工具，而且打开也很快，非常推荐;在安装完毕后，我们需要对其添加环境变量等操作，我们可以直接运行下面代码;不过这里的 pip 也是需要 conda 来进行安装的;windows和macOS推荐直接下载。这里我们可以用下面代码进行设置，把。linux 推荐使用。

2024-01-16 10:13:43 673

原创前端效果登入界面

【代码】前端效果登入界面。

2024-01-07 20:21:21 860

原创 vue前端展示【1】

【代码】vue前端展示【1】

2024-01-07 15:55:30 366

原创 nvm,npm,yarn相关指令，前端配置准备

前端配置笔记

2024-01-04 02:59:00 629

原创 [FNet]论文实现：FNet：Mixing Tokens with Fourier Transform

transformer encode架构可以通过很多种方式进行加速，毫无例外的都是对attention mechanism 进行处理，通过把平方项的复杂度缩小到线性项的复杂度；FNet没有用什么former后缀就表明，FNet并不是传统意义上transformer架构的优化，并不是在attention mechanism的优化；这里一个替换，利用线性的傅里叶变化替换掉注意力机制，在处理长文本的时候降低少许性能而巨大的提升训练推理速度和内存效率；

2023-12-20 00:49:46 886

原创 [Big Bird]论文解读：Big Bird: Transformers for Longer Sequences

结合的模型毫无疑问是NLP领域最热的模型，但是普通的注意力机制收到了平方次计算量的限制，为了解决这个问题，这里论文推出了BigBird，去结合把平方次计算变为线性计算；Big Bird保留了完全注意力机制的特性，同时论文还解释了全局token的用处，例如bert中的CLS，在中可以对整体序列进行交互，利用这个模型可以在保持硬件不发生改变的情况下处理比原来高8x的序列长度，像QA任务和任务这些长序列任务可以在Big Bird中得到显著的改善；并不能够记忆sequence。

2023-12-17 14:45:34 1018

原创 [Knowledge Distillation]论文分析：Distilling the Knowledge in a Neural Network

使用一系列模型预测概率的平均值即软投票机制能显著改善模型的性能，但是部署起来是比较不方便的：因为要预测很多的模型结果，再求平均；论文中提到可以把所有模型预测结果的平均值部署在一个模型里面，然后利用这一个模型来预测，这样就可以大大减少部署的难度，这种方法被称为,即知识蒸馏；在知识蒸馏中，我们不需要关心参数数量和大小的变化，我们只需要关心经过这一系列的参数得到的结果变化，如果参数变少，一般来说100%复刻这个结果是很难的；但是我们可以以一定的比例如80%可以很好的表达原来的模型结果就可以；

2023-12-15 23:26:30 1009

原创 [Linformer]论文实现：Linformer: Self-Attention with Linear Complexity

这是一篇介绍的优化模型的论文，其对普通的模型进行了优化，把时间复杂度和空间复杂度都从O(n^2)降低为了O(n)；论文推出的模型叫Linformer，其主要思想利用到了两个思想，JL和SVD

2023-12-14 23:53:29 1667 3

原创 [Longformer]论文实现：Longformer: The Long-Document Transformer

论文中提出了三种模型，一种是类似于`BERT`，利用滑动窗口注意和全局注意处理长文本序列；一种类似于`GPT`，利用膨胀滑动窗口注意抓取上下文获取长文本序列；一种是 `Longformer-Encoder-Decoder(LED)`，利用类似于`BERT`的机制做`encoder`，利用全注意力机制做`decoder`的`seq2seq`架构，在`arXiv`上超过了`bigbird`取得了`SOTA`

2023-12-13 03:14:40 1112

原创 [DistilBERT]论文实现：DistilBERT：a distilled version of BERT: smaller, faster, cheaper and lighter

这篇论文引入了一种结合语言建模，蒸馏，余弦距离损失的三重损失，利用该损失在预训练阶段使用知识蒸馏，可以减少模型的大小，保持的能力，同时加快的速度；虽然说和类的模型在处理任务时带来了极大的改进；但是NLP领域出现了一种现象，就是在模型越大的时候，模型的效果就越好，我估计这也是大厂疯狂卷算力的原因吧；

2023-12-12 14:30:36 1232

原创 python 爬虫 m3u8 视频文件加密解密整合mp4

别在图书馆测试这段代码！

2023-12-11 23:44:29 2456 2

原创 [XLNet]论文解读：XLNet:Generalized Autoregressive Pretraining for Language Understanding

XLNet主要就是两个东西，一个是Permutation Language Modeling，一个是transformer-xl；感觉性能相对于roberta也没提升多少，这个模型的架构应该是不太行；

2023-12-10 16:37:55 905

自然语言处理数据：粤语转普通话

豆瓣电影 + python

王者壁纸 + python

微博热搜数据 + python

微博热点数据获取 + python

playwright自动化 + 招聘数据

[transformer]论文实现：Attention Is All You Need PDF文件

[transformer]论文实现：Attention Is All You Need 以中英文翻译为例子 中 中英文语料数据

空空如也

[transformer]论文实现：Attention Is All You Need 以中英文翻译为例子中中英文语料数据