Anycall201-CSDN博客

原创 TensorRT-LLM+ChatGLM/Qwen推理部署

无需拉取代码、无需编译，使用Nvidia官方工具便捷式安装TensorRT-LLM引擎，并使用该引擎对chatglm和qwen模型推理加速，部署大模型线上服务。

2024-05-03 02:34:18 1784

原创大模型微调踩坑记录 - 基于Alpaca-LLaMa+Lora

大模型微调训练时，遇到icetk、bitsandbytes报错的解决方案

2023-04-11 09:54:12 11446 18

原创大模型训练时，使用bitsandbytes报错的解决方法

使用bitsandbytes加载模型出现"The installed version of bitsandbytes was compiled without GPU support."警告的解决办法

2023-04-03 15:55:45 25660 16

原创 Linux安装python+cuda toolkit

Linux系统下安装Python环境、安装nvdia cuda-toolkit驱动

2023-02-21 11:29:38 1651

原创解决Mac打开软件出现“已损坏，无法打开，您应该将它移到废纸篓”的问题

Mac打开软件时出现“已损坏，无法打开，您应该将它移到废纸篓”，可用如下操作解决

2022-12-27 10:30:27 2927

文章目录CRF的定义线性链CRF条件概率的计算CRF的定义条件随机场是给定随机变量 XXX 条件下、随机变量 YYY 的马尔可夫随机场，也即随机变量 YYY 构成一个由无向图 G=(V,E)G=(V,E)G=(V,E) 表示的马尔可夫随机场。即满足 P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w∼v)P(Y_v|X,Y_w, w \neq v) = P(Y_v|X,Y_w, w \sim v)P(Yv∣X,Yw,w=v)=P(Yv∣X,Yw,w∼v) 对任意节点 vvv 成立，则称条

2021-03-16 14:56:23 304

原创 NLP算法（五）- transformer

文章目录1 背景2 模型结构3 Encoder模块3.1 位置编码3.2 自注意力机制3.3 多头注意力3.4 Layer Normalization3.5 Encoder整体结构4 Decoder模块4.1 Masked Multi-Head Self-Attention4.2 Multi-Head Encoder-Decoder Attention5 总结1 背景Transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的 seq2seq 模型

2020-12-29 09:31:41 633

原创 NLP算法（四）- seq2seq

1 背景RNN模型虽然能够将语义信息在序列间传递，但其输入和输出长度必须相同。因此RNN模型在解决如：机器翻译、摘要生成等问题时比较束手无策。因此在这基础上，Seq2Seq模型被提出，用以解决这种由一个序列产生另一个序列的问题。2 模型结构Seq2Seq模型包含两个部分，编码器(Encoder) 和解码器(Decoder)。与RNN结构不同的是，Seq2Seq结构不再要求输入和输出序列有相同的时间长度。Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decode

2020-12-28 11:18:14 401

原创机器学习算法（四）- 梯度下降法

文章目录1 SGD2 Momentum3 Adagrad在对模型优化时，希望通过梯度下降法使得模型的损失函数降低。目前主要的梯度下降法有SGD、Momentum、Adagrad、RMSProp、Adam几种，接下来将详细讨论这几种方法以及他们的优缺点。1 SGD随机选取一个样本的损失来近似整体样本的平均损失。其优点在于：收敛速度快。其缺点在于：容易收敛到局部最优，或被困在鞍点。对初始学习率的选择依赖度较高，因该算法参数的更新幅度固定，无法主动随着迭代次数更新。各方向学习率相同，但在实

2020-12-25 10:40:32 254 3

原创 NLP算法（三）- 循环神经网络

1 背景在解决文本相关的任务时，各单词之间在语义上是有关联的。若直接使用全连接层等线性模型，则会丢失各单词之间的联系。CNN模型虽然可以构建相邻单词的联系，但受限于窗口大小，该模型仅能建立有限邻近单词之间的联系。因此，一种新的模型被提出，期望能改进上述两种模型的缺陷，既能建立单词之间的联系，同时使单词的信息可以传递到更远的位置。这一模型便是循环神经网络。迄今为止，主要有3种循环神经网络模型被提出，分别是RNN、LSTM、GRU，下面我们将依次展开讨论。2 RNNRNN模型结构如下所示，该模

2020-12-23 20:41:56 899

原创 NLP算法（一）- Word2Vec

文章目录1 背景1.1 算法提出1.2 数学基础2 模型2.1 CBOW模型2.1 SkipGram模型2.3 算法优化3 Hierachical霍夫曼编码3.1.1 CBOW3.2 SkipGram4 负采样4.1 负样本4.2 CBOW4.3 SkipGram1 背景1.1 算法提出词向量的概念提出之前，将语料库中的单词映射到向量空间的方式是one-hot编码。但one-hot编码的缺陷在于：无效编码过多，空间利用率极低，后续使用中极大占用内存。单词之间均为正交关系，与单词在实际使用过程中的

2020-12-22 23:37:14 364 1

原创机器学习算法（三）- 支持向量机

1 背景假设样本为 {xi,yi}i=1N\begin{Bmatrix} x_i,y_i \end{Bmatrix}_{i=1}^{N}{xi,yi}i=1N，其中 y∈{1,−1}y\in{\begin{Bmatrix} 1,-1 \end{Bmatrix}}y∈{1,−1}, 意图构造分类器 y^=sign(wTx+b)\hat y=sign(w^Tx+b)y^=sign(wTx+b)若样本可分，则满足条件的 w,bw,bw,b 有无穷多组解。支持向量机解决的问题就是从这无穷多组解中，

2020-12-19 10:49:23 155 1

原创机器学习算法（二）- 降维

推导在维度固定的情况下，为了最大化利用空间，我们希望选择一组正交基构成降维后的向量空间，这样原始数据在映射到该空间之后，各项特征之间的相关性为0。为了最小化数据的重构代价，在寻找这组正交基时，希望它能满足映射后的数据在这些正交向量上的方差最大化。计算不失一般性，将样本平移，使其各项特征均值为0x′=x−xˉx^\prime = x-\bar{x}x′=x−xˉ样本xix_ixi在向量uuu上的投影为xi′Tu=(xi−xˉi)Tux_i^{\prime T}u = (x_i-\bar{x

2020-12-18 09:02:33 151

原创机器学习算法（一） - 线性分类

1 背景线性回归模型f(w,b)=WTX+b,X∈RPf(w,b)=W^TX+b, X\in R^Pf(w,b)=WTX+b,X∈RP具有三个特点：线性性质：即属性、函数形式具有线性性质。数据全局性：即数据作为整体进行考虑，而不是将数据分成几个部分，分别得到每部分的模型。数据未加工：即数据未经过处理，直接带入模型进行计算。在此之上，打破线性模型的这些性质，则可从中衍生出其他机器学习模型。属性非线性：打破属性线性性质，则模型从线性回归变为多项式回归。函数非线性：打破函数线性性质，即为一线性

2020-12-14 16:36:42 832 2

原创创建一个完整的机器学习工程（四）- 模型建立与评估

本文将介绍如何通过训练处理后的数据得到模型，以及如何利用测试集数据检验模型的表现。文章的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章

2019-11-29 11:27:41 655 2

原创创建一个完整的机器学习工程（三）- 数据处理

本文将介绍在数据处理时，针对不同的问题分别采用何种方式去解决。文章的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章本书中文版名为《Scikit-Learn与TensorFlow机器学习指南》

2019-11-22 23:21:49 517

原创创建一个完整的机器学习工程（二）- 数据准备

本文将介绍如何通过观察数据特点进行处理，从而方便建立模型。文章的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章

2019-11-19 09:17:30 336

原创创建一个完整的机器学习工程（一）- 数据概览

这几篇博客将通过对加州房价模型的建立，介绍如何搭建一个完整的机器学习工程。这篇文章将介绍如何实现数据信息概览及可视化操作。本文的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章

2019-11-16 23:01:20 519

学生信息管理网站+Django+MySQL+Python

项目功能：信息管理类网站搭建。使用目的：该资源可作为实现类似功能的课程设计的一个基础框架，在此基础上再添加自定义功能。目前功能包括： 1. 管理员、用户两种登录模式。 2. 管理员模式下可对用户数据进行增、删、查。 3. 用户模式可对自身数据进行修改。前端：HTML+CSS(bootstrap)+js+ajax。后端：Django+MySQL+Python。附有：python运行环境需求、运行效果截图、目录结构等帮助文档。

2022-06-06

Java代码-学生信息管理界面

Java实现学生信息管理界面。功能包括展示学生信息(姓名、性别、学号、成绩)、并支持按姓名、成绩排序，支持通过界面录入新学生。

2022-01-01

Java代码-数字时钟设置界面

Java实现日期和数字时钟设置界面。功能包括时间每秒变化(多线程)，可设置当前日期和时间等，达到类似windows日期时间设置界面的效果。

2022-01-01

Java代码-外币兑换及统计系统

通信软件技术课程设计代码，模拟银行总行和分行进行货币兑换时涉及的各项业务功能。包括利用总行窗口显示当天汇率，分行读取总行汇率、计算兑换结果，每日交易记录提交等。

2022-01-01

Wireless Communication by Andrea Goldsmith

无线通信（Wireless Communication by A.Goldsmith）英文完整版，有目录，方便阅读

2016-01-13

（试读版）Digital Signal Processing - Proakis and Manolakis (4th Edition)

（试读版）数字信号处理第四版英文原版，国外上课专用

2015-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

anycall201的博客

原创 TensorRT-LLM+ChatGLM/Qwen推理部署

原创大模型微调踩坑记录 - 基于Alpaca-LLaMa+Lora

原创大模型训练时，使用bitsandbytes报错的解决方法

原创 Linux安装python+cuda toolkit

原创解决Mac打开软件出现“已损坏，无法打开，您应该将它移到废纸篓”的问题

原创机器学习算法（六）- 条件随机场

原创 NLP算法（五）- transformer

原创 NLP算法（四）- seq2seq

原创机器学习算法（四）- 梯度下降法

原创 NLP算法（三）- 循环神经网络

原创 NLP算法（一）- Word2Vec

原创机器学习算法（三）- 支持向量机

原创机器学习算法（二）- 降维

原创机器学习算法（一） - 线性分类

原创创建一个完整的机器学习工程（四）- 模型建立与评估

原创创建一个完整的机器学习工程（三）- 数据处理

原创创建一个完整的机器学习工程（二）- 数据准备

原创创建一个完整的机器学习工程（一）- 数据概览

学生信息管理网站+Django+MySQL+Python

Java代码-学生信息管理界面

Java代码-数字时钟设置界面

Java代码-外币兑换及统计系统

Wireless Communication by Andrea Goldsmith

（试读版）Digital Signal Processing - Proakis and Manolakis (4th Edition)

空空如也