自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

志在创建优质博客、通俗易懂、助力大家提高学习效率!

本博客以算法工程师日常工作经验为基础,分享各类算法:NLP、cv、搜广推、机器学习、深度学习、数据分析的共工作项目总结!

  • 博客(43)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 【大模型驯化-bug解决】成功解决subprocess.CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]‘ returned non-zero exit sta

在进行大模型微调过程中,我们出现pytroch版本问题而导致的, 这个问题的出现与pytorch的版本有关,可以把pytorch版本降到1.5.0以下。但是这个解决方法治标不治本,有时候我们不可避免的需要使用高版本的pytorch,这就需要对pytorch做一些更改。

2024-06-24 16:08:41 515

原创 【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧

有时在进行特征工程时,当某列的值的种类不是大于20且不同的值的label差异性比较大时,像LR算法则一定需要将其进行one-hot编码,即使使用像xgb/gbm这样的算法,进行one-hot编码也会在拟合效果上有想不到的提升,当然如果对算法的速度有特别的要求,则需要去折中选择。这个函数主要对数据进行编码操作的,将类别数据转换为相关数值型数据本文介绍了 Pandas 中的四个特征工程函数:get_dummies、factorize、diff 和 rank。

2024-06-24 14:13:26 255

原创 【Sklearn驯化-环境配置】一文搞懂sklearn建模的最优环境搭建用法

在日常的数据分析和数据建模过程中,一方面我们需要开发整套的代码需要一个可视化的代码编辑器同时我们有时候需要对中间的数据结果进行分析,这个时候需要对其进行可视化等操作,因此,我们需要一个代码编辑器不是特别的重的,同时也能够对数据进行可视化操作的工具,下面介绍日常工作中比较好用且符合上述要求的两个工具。

2024-06-23 16:31:08 865

原创 【Pandas驯化-14】一文搞懂Pandas中的时间处理函数date_range、resample、shift技巧

如果要对时间序列相关的数据进行数据分析与挖掘,而时间做为一种特殊的数据格式,不同于字符串,整型的数据格式,但是它们之间又是有一定的联系,在介绍pandas时间处理的方法之前,首先介绍一下关于python的时间处理的相关知识以及常用的包:首先对于时间维度信息在进行数据分析以及特征工程的时候经常挖掘分析的时间维度信息如下:年、月、日、是否周末、是否节假日、一年中的第几周、一周中的第几天、距离节假日的时间距离、年月日结合相关业务操作的时间范围、针对业务特征日期的处理。

2024-06-23 16:28:21 662

原创 【Pandas驯化-13】一文搞懂Pandas中的文件合并merge、concat函数技巧

在数据分析中,经常需要将多个数据集合并为一个统一的数据结构以进行进一步的分析。Pandas 提供了 merge 和 concat 两个函数来实现数据的合并操作。merge 用于根据一个或多个键将不同的数据集按照一定的规则进行合并,类似于 SQL 中的 JOIN 操作。而 concat 用于将多个数据集沿某个轴进行合并,不涉及键的匹配。。本文介绍了 Pandas 中的两个数据合并函数 merge 和 concat 的使用方法。

2024-06-22 10:47:06 730

原创 【Pandas驯化-11】一文搞懂Pandas中的分组函数groupby与qcut、fillna使用

对于分箱操作,在处理连续数据的特征工程时经常会用到,特别是在用户评分模型里面用的贼多,但是使用最优分箱进行数值离散化比较多。在数据分析中,经常需要根据某些特征将数据分组,并在每个组内执行计算或分析。Pandas 提供了 groupby 功能来实现这一点。此外,qcut 可用于将连续数据分箱为离散区间,而 fillna 用于填充数据中的缺失值。本文介绍了如何使用 Pandas 对数值型数据进行分箱,并在每个箱子中统计另一列的统计特征。

2024-06-22 10:46:00 586

原创 【大模型驯化-Prompt】企业级大模型Prompt调试技巧与batch批量调用方法

Prompt 工程是创建提示或指导像 ChatGPT 这样的语言模型输出的过程。它允许用户控制模型的输出并生成符合其特定需求的文本。prompt的设计一定要有逻辑和系统性,现在大模型对于文本的分类、抽取、生成、理解等nlp任务都特别的强大,在通用的领域里面基本不会比传统的模型效果差,但是受限于gpu资源和预算,目前对于大规模的任务很多都是通过大模型进行样本的修正和标注,在用小模型进行在线部署,后续如果性能提高、费用降低很多之前的小模型都会基于大模型进行任务的处理。

2024-06-21 22:54:57 1215

原创 【大模型驯化-gradio】成功解决gradio出现httpcore.ReadTimeout: timed out问题

【大模型驯化-gradio】成功解决gradio出现httpcore.ReadTimeout: timed out问题 本次修炼方法请往下查看     在实际的工作中,我们经常会启用一个docker来管理自己的环境隔离问题,在使用对大模型进行可视化接口调用时,我们使用如下命令安装gradio:  从上述的结果可以看出我们已经在一个conda环境中安装成功了gradio,我们通过gra

2024-06-21 11:05:25 577

原创 【Pandas驯化-12】一文搞懂Pandas中的分组函数groupby与apply、lambda使用

如果要说上面介绍的一些pandas的基本操作大部分execl厉害的人也能实现,个人感觉pandas处理数据贼有魅力的地方在于它的聚合分组统计操作,这也是在数据建模中特征提取用的最多的地方,在特征提取时,经常需要提取样本分组的统计信息特征。只能对一列数据进行操作,且不能和groupby进行结合操作。

2024-06-21 10:21:49 916

原创 【Pandas驯化-10】一文搞懂Pandas中一列混合多种数据类型to_numeric、select_dtypes处理

在实际工作中,由于数据采集的失误或者人工处理的时候不当,会造成原始数据类型经常会遇到一列数值型数据中,混杂一些字符串类型的数据,当我们要对这列数据进行统计运算时,就会报相应的错误,当遇到这样问题的时候,如果我们是在进行数据分析,需要找出具体是哪些行存在这样的问题,从而去修改原始数据的采集,而在进行数据建模或者特征提取时,需要对其进行删除或者采用均值数据进行修改,具体的骚操作方法如下:函数尝试将输入的数据转换为数值类型。当。

2024-06-20 16:03:52 705

原创 【Python驯化-01】python中set去重数据每次结果不一致问题解决

Pandas在Python中,set 是一种无序的集合数据结构,它不保留元素的插入顺序。然而,从 Python 3.7 开始,标准的 set 类型被修改为保持插入顺序,这为我们提供了一种新的数据结构 —— Ordered Set。Ordered Set 结合了列表(List)和集合(Set)的特性,即它不允许重复元素,同时保持元素的添加顺序。Ordered Set 是 Python 中一个非常有用的数据结构,它结合了集合的独一无二性和列表的有序性。

2024-06-20 16:02:12 812

原创 【Pandas驯化-09】一文搞懂Pandas中字符串用法extract、zfill、isdigit

Pandas 提供了一个非常强大的字符串处理功能,通过 str 访问器,可以对 Series 或 DataFrame 中的字符串类型列进行各种操作,如大小写转换、字符串分割、正则表达式匹配、检查字符串内容、计数、搜索、长度获取、正则提取以及补零操作。这些操作使得文本数据的处理变得简单而高效。Pandas 的 str 访问器为字符串类型的数据处理提供了丰富的方法,括检查字符串内容、计数、搜索、获取长度、正则提取和补零操作。通过本文的代码示例和输出结果,我们可以看到如何使用这些方法来处理文本数据。

2024-06-19 13:36:01 768

原创 【Pandas驯化-08】一文搞懂Dataframe中一行变多行explode、split中的expand用法

在Pandas中,explode是一个用于将序列值分解成多行的函数。当DataFrame中的某一列包含序列(如列表或数组),而你希望将这些序列中的每个元素转换为DataFrame的一行时,explode就非常有用。真实的数据分析工作中,通过用到explode是和str中的split结合起来用,因此,真实数据中,组成的list大多数为字符串格式,因此,通常需要将字符串转换成列表,然后在将使用explode函数将一列数据转换成多列数据。

2024-06-19 13:34:05 926

原创 【Pandas驯化-07】DataFrame中无所不能的pivot函数

在数据处理中,经常需要对数据进行重塑以适应不同的分析需求。Pandas 提供了 pivot 函数,允许用户重构长格式(long format)的数据为宽格式(wide format),通过指定索引(index)、列(columns)和值(values),可以快速地创建一个新的派生表,使得数据的展示更加直观。pivot 函数是 Pandas 中一个非常有用的工具,它可以帮助我们将长格式的数据转换为宽格式,使得数据的展示更加直观,便于分析。

2024-06-18 11:38:36 870

原创 【Pandas驯化-06】一文搞懂Dataframe中的索引stack、unstack问题

在Pandas中,DataFrame 是一种非常灵活的数据结构,它允许我们以表格的形式存储和操作数据。stack 和 unstack 是两个用于操作多级索引(multi-index,也称为层次化索引)的函数,它们可以帮助我们重塑数据的形状,以适应不同的分析需求。

2024-06-18 11:38:04 1128

原创 【NLP项目-01】手把手教你基于TF-IDF提取向量+贝叶斯或者随机森林进行文本分类

文本分类是自然语言处理(NLP)中的一项基础任务,其目标是将文本数据自动归类到预定义的类别中。TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本向量化方法,它能够衡量一个词语对于一个文档集或一个语料库中的其中一份文档的重要性。作用:用来计算一个词在文档中的权重大小,通常用来计算词权重方法之一TF:一个词在文档中的频次IDF:逆文档频率,一个关键词w在dw个文档中出现的次数TFijnij∑knkjTFi。

2024-06-17 21:12:11 1624

原创 【Python画图-Matplotlib-01】一文搞懂Matplotlib旋转x轴

在数据分析可视化使用Matplotlib画图时,经常会对数据进行x轴的翻转,默认情况下Matplotlib画图的x轴是0度的,当x轴的值过长时,展示出现的结果会比较难看,本文分享如果对x轴进行翻转。本文介绍了如何使用 Pandas 对数据进行区间划分,并使用 Matplotlib 进行可视化展示。通过 get_cut_cnt 函数,我们可以快速得到数据在不同区间的分布情况,并以条形图的形式直观展示。这种方法在探索数据分布特征时非常有用,可以帮助我们快速识别数据的集中趋势和异常区间。

2024-06-17 21:10:41 797

原创 【Git工具-合并master】一文学会本地如何将远程master合并到本地分支

在多人协作的Git工作流中,经常需要将远程分支的更新合并到本地分支,以确保代码的一致性和最新性。本文将介绍如何将远程的master分支合并到本地的dev分支。本文介绍了如何将远程的master分支合并到本地的dev分支,以保持本地分支的更新。通过执行一系列Git命令,我们可以确保本地分支与远程分支保持同步,减少协作中可能出现的冲突。希望这篇博客能够帮助你更好地理解Git的工作流程和分支管理。

2024-06-17 20:54:22 573

原创 【sklearn驯化-降维】一文搞懂机器学习中的降维技术PCA、LDA用法

在机器学习领域,降维是一种常用的技术,用于减少数据集中的特征数量,从而简化模型、提高计算效率,并有助于避免过拟合。两种常见的降维技术是主成分分析(PCA)和线性判别分析(LDA)。PCA:是一种无监督学习方法,通过正交变换将数据转换到新的坐标系,使得数据的任何投影的方差最大化。LDA:是一种监督学习方法,不仅考虑了数据的方差,还考虑了数据的类别信息,以实现类别之间的最佳分离。

2024-06-17 09:17:28 1015

原创 【Pandas驯化-05】Pandas中增、删、查、改、dropna、sort_values使用总结

对于结构化的数据Dataframe,我们通常归纳为多少行,多少列,在通过Pandas对Dataframe进行数据分析、处理过程中,通过的操作需要对数据进行增、删、修、改、判断缺失值、以及排序、本文对pandas中的上述操作进行实践,总结实际工作中常用到的函数用法和技巧。本文介绍了 Pandas 中删除空值和满足特定条件的数据的方法。这些方法在数据清洗过程中非常关键,有助于提高数据分析的准确性和效率。通过实际的代码示例,我们可以看到这些操作是如何应用于实际的数据集上的。

2024-06-17 09:13:12 561

原创 【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作

本文介绍了pands中的去重哈数drop_duplicates、行列翻转的技巧和相关的操作

2024-06-16 09:56:41 908

原创 【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用

本文介绍了pandas中常用的基础统计函数的使用,主要为求均值、方差、个数、空值、describe、info等分布统计信息的用法和技巧

2024-06-16 09:55:28 840

原创 【Pandas驯化-02】pd.read_csv读取中文出现error解决方法

pandas中read_csv读取文件出现的各类问题汇总解决方法!

2024-06-15 20:58:52 837

原创 【Pandas驯化-01】一文介绍 Pandas中的Dataframe和Series 区别

pandas中基础数据结构类型dataframe和series的介绍和使用!

2024-06-15 20:56:11 754

原创 vscode打开文件不覆盖

2. 在 用户—>工作台—>编辑管理 选项卡下拉找到Enable Preview(或者直接搜索Enable Preview,找到编辑管理里的Enable Preview),去掉这个选项的勾。打开 文件—>首选项—>设置 窗口。

2024-04-29 11:09:19 288

原创 linux中安装mysql服务

安装mysql方法常用命令登录:mysql -u root -p查看用户名和密码:cat /etc/shadow2

2024-04-22 10:29:38 259

原创 textcnn做多分类

【代码】textcnn做多分类。

2024-04-09 10:15:36 487

原创 gbm模型做分类

【代码】gbm模型做分类。

2024-04-05 10:58:05 483

原创 chabot项目介绍

整体的目录如下所示:datamodel:存放对话生成的模型- config.json:模型参数的配置文件- pytorch_model.bin:模型文件vocabsample:存放人机闲聊生成的历史聊天记录train.py:训练代码interact.py:人机交互代码preprocess.py:数据预处理代码。

2024-04-04 16:56:18 559

原创 xgb和gbm做回归代码sklearn

【代码】xgb和gbm做回归代码sklearn。

2024-03-24 10:21:03 612

原创 视频整体代码逻辑如下所示

【代码】视频整体代码逻辑如下所示。

2024-03-23 08:59:44 274

原创 erine做文本分类

【代码】erine做文本分类。

2024-03-16 12:23:31 424

原创 大模型不同参数下的模型显存计算公式

在这个基础上跑一次原始参数量的推理(不需要梯度和优化器状态,但仍然需要一些显存来存储运算过程的数据),合起来就是LoRA的所需要的显存。例:原本需要微调1024×512的参数,用了LoRA之后,如果选择的 Rank=8,则只需要微调这么多参数:1024×8+512×8。以 7B-BF16 版本为例,需要显存 = 数量 * 类型大小 = 70亿 * 2字节 = 140亿字节。LoRA 只需要给原始模型做推理,训练一个更小的模型来实现和训练原始参数差不多的效果。优化器的状态:参数量的2倍。

2024-03-16 09:54:19 3160

原创 cnn的相关代码如下所示

【代码】cnn的相关代码如下所示。

2024-03-12 21:28:07 343

原创 树模型分裂节点可视化

【代码】树模型分裂节点可视化话。

2024-02-28 18:49:45 394

原创 【NLP基础知识-bert向量化】BERT模型输出pooler_output和last_hidden_state详解和用法

是一种预训练语言表示模型,由Google在2018年提出。它通过使用Transformer架构的编码器部分,能够捕捉到文本的双向上下文信息。BERT模型在自然语言处理(NLP)领域取得了革命性的进展,为各种下游任务提供了强大的基础。# 加载BertTokenizer和BertModel# 定义输入文本text = '这是一个测试句子'# 对输入文本进行分词和填充# 获取Bert模型的embedding结果# 输出结果。

2023-10-09 10:56:11 2861

原创 mac电脑词云和matplotlib画图显示中文乱码最简单办法

【代码】mac电脑词云和matplotlib画图显示中文乱码最简单办法。

2023-09-30 17:07:37 516

原创 使用conda处理docker崩溃导致的conda环境得重新配置

目前大公司基本都通过docker的方式管理开发机器,如果docker一旦重新启动很有可能conda环境就全部得重新配置了,之前安装的tensorflow和pytroch环境也需要重新配置比较麻烦,可以使用conda pack方式来处理这个问题。

2023-09-28 17:17:06 148

原创 mac中使用idea搭建java开发环境

目前大部分的大公司基本都使用java语言(1.8)作为后端的开发语言,除百度用c++,大部分的公司都使用java语言,目前有在转go的趋势,下面为java开发环境的搭建流程总体的工具为:idea+java+maven。

2023-09-28 16:02:47 295

原创 使用SRILM 工具对n-gram建模实战

n-gram模型是一种统计语言模型,用于预测给定一个文本序列中下一个词或单词序列的概率。本文通过srilm工具对n-gram模型进行建模实战

2023-09-26 13:35:10 136

pandas使用工作技能总结

pandas中工作的一些使用总结,本文系统的总结了pandas的使用心得和学习心得,资料内容简单易读

2024-06-17

pandas数据骚操作总结

pandas在工作中的使用总结,以及使用pandas进行特征工程比较常用的方法总结。

2019-02-17

python处理pandas读取文件名有中文报错问题解决方法

python处理pandas读取文件名有中文报错问题解决方法,

2018-05-17

windows10下已经编译好了的LightGBM安装包

亲自已测可以直接使用安装的LightGBM包,希望帮助不想安装vs的小伙伴们安装python包/

2018-05-16

现在就职了,分享去年各大互联网公司的机器学习与数据挖掘面积以及总结,望各位都能找个好工作。

现在就职了,分享去年各大互联网公司的机器学习与数据挖掘面积以及总结,望各位都能找个好工作。

2018-05-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除