自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (6)
  • 收藏
  • 关注

原创 TensorRT-LLM+ChatGLM/Qwen推理部署

无需拉取代码、无需编译,使用Nvidia官方工具便捷式安装TensorRT-LLM引擎,并使用该引擎对chatglm和qwen模型推理加速,部署大模型线上服务。

2024-05-03 02:34:18 1784

原创 大模型微调踩坑记录 - 基于Alpaca-LLaMa+Lora

大模型微调训练时,遇到icetk、bitsandbytes报错的解决方案

2023-04-11 09:54:12 11446 18

原创 大模型训练时,使用bitsandbytes报错的解决方法

使用bitsandbytes加载模型出现"The installed version of bitsandbytes was compiled without GPU support."警告的解决办法

2023-04-03 15:55:45 25660 16

原创 Linux安装python+cuda toolkit

Linux系统下安装Python环境、安装nvdia cuda-toolkit驱动

2023-02-21 11:29:38 1651

原创 解决Mac打开软件出现“已损坏,无法打开,您应该将它移到废纸篓”的问题

Mac打开软件时出现“已损坏,无法打开,您应该将它移到废纸篓”,可用如下操作解决

2022-12-27 10:30:27 2927

原创 机器学习算法(六)- 条件随机场

文章目录CRF的定义线性链CRF条件概率的计算CRF的定义条件随机场是给定随机变量 XXX 条件下、随机变量 YYY 的马尔可夫随机场,也即随机变量 YYY 构成一个由无向图 G=(V,E)G=(V,E)G=(V,E) 表示的马尔可夫随机场。即满足 P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w∼v)P(Y_v|X,Y_w, w \neq v) = P(Y_v|X,Y_w, w \sim v)P(Yv​∣X,Yw​,w​=v)=P(Yv​∣X,Yw​,w∼v) 对任意节点 vvv 成立,则称条

2021-03-16 14:56:23 304

原创 NLP算法(五)- transformer

文章目录1 背景2 模型结构3 Encoder模块3.1 位置编码3.2 自注意力机制3.3 多头注意力3.4 Layer Normalization3.5 Encoder整体结构4 Decoder模块4.1 Masked Multi-Head Self-Attention4.2 Multi-Head Encoder-Decoder Attention5 总结1 背景Transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的 seq2seq 模型

2020-12-29 09:31:41 633

原创 NLP算法(四)- seq2seq

1 背景RNN模型虽然能够将语义信息在序列间传递,但其输入和输出长度必须相同。因此RNN模型在解决如:机器翻译、摘要生成 等问题时比较束手无策。因此在这基础上,Seq2Seq模型被提出,用以解决这种由一个序列产生另一个序列的问题。2 模型结构Seq2Seq模型包含两个部分,编码器(Encoder) 和 解码器(Decoder)。与RNN结构不同的是,Seq2Seq结构不再要求输入和输出序列有相同的时间长度。Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由Decode

2020-12-28 11:18:14 401

原创 机器学习算法(四)- 梯度下降法

文章目录1 SGD2 Momentum3 Adagrad在对模型优化时,希望通过梯度下降法使得模型的损失函数降低。目前主要的梯度下降法有SGD、Momentum、Adagrad、RMSProp、Adam几种,接下来将详细讨论这几种方法以及他们的优缺点。1 SGD随机选取一个样本的损失来近似整体样本的平均损失。其优点在于:收敛速度快。其缺点在于:容易收敛到局部最优,或被困在鞍点。对初始学习率的选择依赖度较高,因该算法参数的更新幅度固定,无法主动随着迭代次数更新。各方向学习率相同,但在实

2020-12-25 10:40:32 254 3

原创 NLP算法(三)- 循环神经网络

1 背景在解决文本相关的任务时,各单词之间在语义上是有关联的。若直接使用全连接层等线性模型,则会丢失各单词之间的联系。CNN模型虽然可以构建相邻单词的联系,但受限于窗口大小,该模型仅能建立有限邻近单词之间的联系。因此,一种新的模型被提出,期望能改进上述两种模型的缺陷,既能建立单词之间的联系,同时使单词的信息可以传递到更远的位置。这一模型便是循环神经网络。迄今为止,主要有3种循环神经网络模型被提出,分别是RNN、LSTM、GRU,下面我们将依次展开讨论。2 RNNRNN模型结构如下所示,该模

2020-12-23 20:41:56 899

原创 NLP算法(一)- Word2Vec

文章目录1 背景1.1 算法提出1.2 数学基础2 模型2.1 CBOW模型2.1 SkipGram模型2.3 算法优化3 Hierachical霍夫曼编码3.1.1 CBOW3.2 SkipGram4 负采样4.1 负样本4.2 CBOW4.3 SkipGram1 背景1.1 算法提出词向量的概念提出之前,将语料库中的单词映射到向量空间的方式是one-hot编码。但one-hot编码的缺陷在于:无效编码过多,空间利用率极低,后续使用中极大占用内存。单词之间均为正交关系,与单词在实际使用过程中的

2020-12-22 23:37:14 364 1

原创 机器学习算法(三)- 支持向量机

1 背景假设样本为 {xi,yi}i=1N\begin{Bmatrix} x_i,y_i \end{Bmatrix}_{i=1}^{N}{xi​,yi​​}i=1N​,其中 y∈{1,−1}y\in{\begin{Bmatrix} 1,-1 \end{Bmatrix}}y∈{1,−1​}, 意图构造分类器 y^=sign(wTx+b)\hat y=sign(w^Tx+b)y^​=sign(wTx+b)若样本可分,则满足条件的 w,bw,bw,b 有无穷多组解。支持向量机解决的问题就是从这无穷多组解中,

2020-12-19 10:49:23 155 1

原创 机器学习算法(二)- 降维

推导在维度固定的情况下,为了最大化利用空间,我们希望选择一组正交基构成降维后的向量空间,这样原始数据在映射到该空间之后,各项特征之间的相关性为0。为了最小化数据的重构代价,在寻找这组正交基时,希望它能满足映射后的数据在这些正交向量上的方差最大化。计算不失一般性,将样本平移,使其各项特征均值为0x′=x−xˉx^\prime = x-\bar{x}x′=x−xˉ样本xix_ixi​在向量uuu上的投影为xi′Tu=(xi−xˉi)Tux_i^{\prime T}u = (x_i-\bar{x

2020-12-18 09:02:33 151

原创 机器学习算法(一) - 线性分类

1 背景线性回归模型f(w,b)=WTX+b,X∈RPf(w,b)=W^TX+b, X\in R^Pf(w,b)=WTX+b,X∈RP具有三个特点:线性性质:即属性、函数形式具有线性性质。数据全局性:即数据作为整体进行考虑,而不是将数据分成几个部分,分别得到每部分的模型。数据未加工:即数据未经过处理,直接带入模型进行计算。在此之上,打破线性模型的这些性质,则可从中衍生出其他机器学习模型。属性非线性:打破属性线性性质,则模型从线性回归变为多项式回归。函数非线性:打破函数线性性质,即为一线性

2020-12-14 16:36:42 832 2

原创 创建一个完整的机器学习工程(四)- 模型建立与评估

本文将介绍如何通过训练处理后的数据得到模型,以及如何利用测试集数据检验模型的表现。文章的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章

2019-11-29 11:27:41 655 2

原创 创建一个完整的机器学习工程(三)- 数据处理

本文将介绍在数据处理时,针对不同的问题分别采用何种方式去解决。文章的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章本书中文版名为《Scikit-Learn与TensorFlow机器学习指南》

2019-11-22 23:21:49 517

原创 创建一个完整的机器学习工程(二)- 数据准备

本文将介绍如何通过观察数据特点进行处理,从而方便建立模型。文章的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章

2019-11-19 09:17:30 336

原创 创建一个完整的机器学习工程(一)- 数据概览

这几篇博客将通过对加州房价模型的建立,介绍如何搭建一个完整的机器学习工程。这篇文章将介绍如何实现数据信息概览及可视化操作。本文的内容源自’Hands-On Machine Learning with Scikit-Learn and TensorFlow’一书第二章

2019-11-16 23:01:20 519

学生信息管理网站+Django+MySQL+Python

项目功能:信息管理类网站搭建。 使用目的:该资源可作为实现类似功能的课程设计的一个基础框架,在此基础上再添加自定义功能。 目前功能包括: 1. 管理员、用户两种登录模式。 2. 管理员模式下可对用户数据进行增、删、查。 3. 用户模式可对自身数据进行修改。 前端:HTML+CSS(bootstrap)+js+ajax。 后端:Django+MySQL+Python。 附有:python运行环境需求、运行效果截图、目录结构等帮助文档。

2022-06-06

Java代码-学生信息管理界面

Java实现学生信息管理界面。功能包括展示学生信息(姓名、性别、学号、成绩)、并支持按姓名、成绩排序,支持通过界面录入新学生。

2022-01-01

Java代码-数字时钟设置界面

Java实现日期和数字时钟设置界面。功能包括时间每秒变化(多线程),可设置当前日期和时间等,达到类似windows日期时间设置界面的效果。

2022-01-01

Java代码-外币兑换及统计系统

通信软件技术课程设计代码,模拟银行总行和分行进行货币兑换时涉及的各项业务功能。包括利用总行窗口显示当天汇率,分行读取总行汇率、计算兑换结果,每日交易记录提交等。

2022-01-01

Wireless Communication by Andrea Goldsmith

无线通信(Wireless Communication by A.Goldsmith)英文完整版,有目录,方便阅读

2016-01-13

(试读版)Digital Signal Processing - Proakis and Manolakis (4th Edition)

(试读版)数字信号处理第四版英文原版,国外上课专用

2015-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除