自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 收藏
  • 关注

原创 pandas的dataframe如何更改数据类型?

pandas的dataframe数据类型转换在使用pandas库进行数据分析时,有时候会需要将object类型转换成数值类型(float,int),那么如何做呢?主要有以下三种方法:创建时指定类型,df.astype强制类型转换,以及使用pd.to_numeric() 转换成适当数值类型。一,创建时指定类型二,使用df.astype()强制类型转换三,...

2018-07-22 20:38:16 163443 1

原创 3小时入门numpy,pandas,matplotlib

使用Python中的三个库可以优雅地进行数据分析,得到一只野生的Matlab,这三个库是numpy,pandas 和 matplotlib。numpy是高性能科学计算和数据分析的基础包,其array多维数组拥有丰富的数据类型,基于向量化技术可以有效代替循环,代码简单速度极快。以numpy为基础的pandas中的数据框dataframe集数据分析工具万象于一身,可以像array数组一样进...

2018-07-22 20:19:07 2044 1

原创 3小时Python入门

一,编程环境推荐使用jupyter notebook1,可以下载安装Anaconda 使用 jupyter notebook2,也可以注册聚宽账号(https://www.joinquant.net/),    在"我的策略"-->"投资研究"中可以直接使用jupyter notebook在jupyter notebook 中使用快键键 Ctrl+Enter 运行单元格c...

2018-07-22 18:34:29 884

原创 Ibis,一个框架拿下各种DataFrame和SQL

Ibis可以用统一的接口,来基于不同的底层实现来操纵数据。包括各种 DataFrame实现(如 pandas, polars, dask) 和SQL实现(如pyspark, duckdb, sqlite, postgres)。从一定意义上说,掌握了ibis就相当于同时掌握了 duckdb, polars, dask, pyspark,各种数据分析和转换问题通通拿下。公众号算法美食屋后台回复关键...

2024-08-11 10:50:54 356

原创 duckdb,单机高效处理海量数据

当我们用pandas处理百万级,千万级,乃至上亿行的数据时,缓慢的速度常常让我们痛苦不堪。这时候,不妨试试duckdb.duckdb在本地单机即可运行,性能非常高。它可以像spark那样使用sql语句进行数据分析和数据转换。当处理几千万行以上的数据时,它的效率通常是pandas的几十几百倍。公众号算法美食屋后台回复关键词:源码,获取本文notebook源代码。duckdb个库的用法非常简单,核心A...

2024-08-03 13:07:59 811

原创 FTTransformer,一个很能打的模型

FTTransformer,是一个BERT模型架构在结构化数据集上的迁移变体。和BERT一样,它非常能打。它可能是少数能够在大多数结构化数据集上取得超过或者匹配LightGBM结果的深度模型。本范例我们将应用它在来对Covertype植被覆盖数据集进行一个多分类任务。我们在测试集取得了91%的准确率,相比之下LightGBM只有83%的准确率。公众号算法美食屋后台回复关键词:torchkeras,...

2024-07-26 00:19:49 607

原创 FireCrawl,抓取网页变成Markdown

没错,这是一个可以抓取网页内容变成markdown文件的工具。是给大模型构建知识库的一把好手。它能够抓取单个网页,还能够根据关键词抓取搜索结果网页中的内容。公众号算法美食屋后台回复关键词:源码,获取本文notebook源码。核心代码逻辑:〇,WEB体验可以在这个工具的网址直接用github账号登录注册使用。https://www.firecrawl.dev/app/playground在这个pla...

2024-07-19 09:07:30 307

原创 sympy,一个可以做数学题的Python库

sympy 是 symbolic python 的简称,也就是一个支持代数符号计算的python库。它可以用来帮助我们解决从初中数学到高等数学的各类问题,包括但不限于:⚫️ 表达式化简,因式分解,方程求解,不等式求解。⚫️ 求极限,求导,求积分,级数展开,解微分方程,级数求和。⚫️ 求概率,求期望,方差。⚫️ 矩阵乘法,求行列式,矩阵求逆,矩阵分解。本文将先演示sympy的基础使用范例,然后讲解s...

2024-07-12 23:04:44 530

原创 使用Python三行代码调用扣子API

扣子官方只提供了curl调用范例,未提供python调用接口。一个有毅力的吃货花了些时间利用requests库进行了实现,封装成了coze这个python库,已经发布到pypi。支持流式输出,支持多轮对话。公众号算法美食屋后台回复关键词:coze,获取项目github链接和B站视频讲解~一,安装coze库pip install coze二,使用范例import os from coze impo...

2024-07-02 23:06:03 628

原创 Coze接入微信公众号以及Python调用API保姆级教程

coze是字节跳动旗下的零代码大模型Agent定制平台~具有以下主要功能特点:⚫️ 1,零成本发布: 可非常简单发布自己定制的bot到 豆包,公众后订阅号,微信客服,掘金等平台。⚫️ 2,多种模型选择:包括 kimi,豆包,baichuan4, 通义千问,MiniMax,GLM4等均可使用...⚫️ 3,丰富的插件工具:必应搜索,文生图,图片理解,图片OCR,wolfram alpha,网页解析,...

2024-06-30 23:27:14 1983

原创 30分钟吃掉ipywidgets交互工具

ipywidgets 是一个在jupyter notebook 中开发用户交互界面的简单工具。可以用它来做机器学习模型的演示,构建数据分析dashboard,或者做一些小工具。先看个效果,再介绍原理~公众号算法美食屋后台回复关键词:源码,获取本文notebook源代码~相比streamlit和gradio,ipywidgets具有如下优势:⚫️ 灵活高效:ipywidgets的组件可以和note...

2024-06-24 06:45:41 287

原创 Ollama 本地CPU部署开源大模型

Ollama可以在本地CPU非常方便地部署许多开源的大模型。如 Facebook的llama3, 谷歌的gemma, 微软的phi3,阿里的qwen2 等模型。完整支持的模型列表可以参考:https://ollama.com/library它基于llama.cpp实现,本地CPU推理效率非常高(当然如果有GPU的话,推理效率会更高), 还可以兼容 openai的接口。本文将按照如下顺序介绍Olla...

2024-06-14 22:34:00 1166

原创 腾讯元宝,有点东西~

从5月30号正式发布到现在,我使用腾讯元宝有七八天了。结合国内其他的一些大模型产品,综合体验对比下来,元宝给人一种博采众长后青出于蓝而胜于蓝的感觉~她回答问题非常简洁明了,响应十分快速,而不像一些国内其他产品啰里八嗦。就我个人而言,腾讯元宝在以下几个方面的优点我体验下来是比较突出的。文档总结支持特别大的文档。AI搜索关联公众号优质内容。优秀的图片理解和OCR能力。下面我通过范例进行说明。一,文档总...

2024-06-11 00:53:53 490

原创 darts 时序预测入门

darts是一个强大而易用的Python时间序列建模工具包。在github上目前拥有超过7k颗stars。它主要支持以下任务:时间序列预测 (包含 ARIMA, LightGBM模型, TCN, N-BEATS, TFT, DLinear, TiDE等等)时序异常检测 (包括 分位数检测 等等)时间序列滤波 (包括 卡尔曼滤波,高斯过程滤波)本文演示使用darts构建N-BEATS模型对 牛奶月销...

2024-06-09 19:58:35 258

原创 30分钟吃掉pytorch转onnx及推理

pytorch模型线上部署最常见的方式是转换成onnx然后再转成tensorRT 在cuda上进行部署推理。本文介绍将pytorch模型转换成onnx模型并进行推理的方法。#!pip install onnx #!pip install onnxruntime#!pip install torchvision公众号算法美食屋后台回复关键词:源码,获取本文notebook源代码。一,准备pyto...

2024-06-08 22:39:14 434

原创 3个plotly实用进阶范例~

本文介绍3个plotly非常实用的高级操作范例:1,绘制时间序列设置滑块;2,绘制地图设置高德底图;3,使用dash构建交互面板;公众号后台回复关键词:plotly,获取本文jupyter notebook 源代码~一,绘制时间序列设置滑块 可以使用一个滑块来选择绘图时间范围。importplotly.expressaspxdfdata=px.data.stocks()fig=...

2024-05-28 09:39:17 314

原创 Xlearn ——快速落地FM/FFM机器学习算法

Xlearn是你面对结构化数据分类/回归任务时,除了xgboost/lightgbm/catboost之外,又不想搞训练很慢的深度学习模型时,可以尝试考虑的一个能够快速落地的机器学习baseline基准。你可以将它单独使用 (在某些场景中可能会好于GBDT类模型),也可以尝试将它和GBDT类模型进行模型融合(基本在所有场景中都会有所提升)。它常常在广告点击率预测、推荐系统等存在大规模稀疏特征,并且...

2024-01-01 22:22:40 1082

原创 使用Prophet预言家进行时间序列预测

prophet是facebook在2017年开源的强大的时间序列预测工具。prophet(读作 ˈprɒfɪt)这个英文单词的意思是先知,预言家(没错,就是天黑请睁眼的那位????)。顾名思义,它能够预测未来。Prophet是一个设计精妙的单层的回归模型,特别适合对具有明显季节周期性(如气温,商品销量,交通流量等)的时间序列进行预测,并具有强大的解释性。我们将简要介绍Prophet框架的算法原理,并以一...

2023-11-26 18:21:56 397

原创 训练日志刷屏使我痛苦,我开发了VLog

训练日志刷屏使我痛苦,我开发了VLog,可以在任意训练代码中轻松使用~例如,通过callback嵌入到lightgbm/catboost/transformers/ultralytics,乃至keras库的训练代码流程中~before:after:为什么不用tensorboard或者wandb?tensorboard需要开端口权限,服务器开发环境有时候没有端口权限~wandb需要联网,有时候网速很...

2023-11-11 11:59:39 280

原创 BaiChuan2保姆级微调范例

前方干货预警:这可能是你能够找到的,最容易理解,最容易跑通的,适用于各种开源LLM模型的,同时支持多轮和单轮对话数据集的大模型高效微调范例。我们构造了一个修改大模型自我认知的3轮对话的玩具数据集,使用QLoRA算法,只需要5分钟的训练时间,就可以完成微调,并成功修改了LLM模型的自我认知。公众号美食屋后台回复关键词:torchkeras,获取本文notebook源代码和更多有趣范例~before...

2023-10-17 22:10:52 3419

原创 30分钟吃掉YOLOv8实例分割范例

本范例我们使用 torchkeras来实现对 ultralytics中的YOLOv8实例分割模型进行自定义的训练,从而对气球进行检测和分割。尽管ultralytics提供了非常便捷且一致的训练API,再使用torchkeras实现自定义训练逻辑似乎有些多此一举。但ultralytics的源码结构相对复杂,不便于用户做个性化的控制和修改。并且,torchkeras在可视化上会比ultralytics...

2023-09-16 22:37:32 436

原创 Qwen7b微调保姆级教程

前方干货预警:这可能是你能够找到的,最容易理解,最容易跑通的,适用于各种开源LLM模型的,同时支持多轮和单轮对话数据集的大模型高效微调范例。我们构造了一个修改大模型自我认知的3轮对话的玩具数据集,使用QLoRA算法,只需要5分钟的训练时间,就可以完成微调,并成功修改了LLM模型的自我认知(以Qwen7b-Chat为例)。公众号算法美食屋后台回复关键词:torchkeras,可获取本文noteboo...

2023-09-13 09:22:09 8166 1

原创 9个范例带你入门LangChain

前方干货预警:这可能是你心心念念想找的最好懂最具实操性的langchain教程。本文通过演示9个具有代表性的应用范例,带你零基础入门langchain。公众号算法美食屋后台回复关键词:langchain,获取本文notebook源代码。9个范例功能列表如下:1,文本总结(Summarization): 对文本/聊天内容的重点内容总结。2,文档问答(Question and Answering Ov...

2023-09-03 17:36:43 769

原创 BaiChuan13B多轮对话微调范例

前方干货预警:这可能是你能够找到的,最容易理解,最容易跑通的,适用于多轮对话数据集的大模型高效微调范例。我们构造了一个修改大模型自我认知的3轮对话的玩具数据集,使用QLoRA算法,只需要5分钟的训练时间,就可以完成微调,并成功修改了LLM模型的自我认知。公众号算法美食屋后台回复关键词:torchkeras,获取本文notebook源代码。我们先说说原理,主要是多轮对话微调数据集以及标签的构造方法,...

2023-08-21 00:42:18 1019 1

原创 10分钟入门faiss相似向量检索

一,faiss简介faiss全称 Facebook AI Similarity Search,是FaceBook的AI团队针对大规模向量 进行 TopK 相似向量 检索 的一个工具,使用C++编写,有python接口,对10亿量级的索引可以做到毫秒级检索的性能。使用faiss 搭配合适的model和embedding函数,可以帮助我们 构建 人脸识别,相似图片检索,LLM知识库问答,推荐系统召回...

2023-08-11 09:17:31 2214 1

原创 Llama深入浅出

前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼)。并且训练它来实现一个有趣的实例:两数之和。输入输出类似如下:输入:"12345+54321="输出:"66666"我们把这个任务当做一个文本生成任务来进行。输入是一个序列的上半部分,输出其下半部分.这和文本生成的输...

2023-08-06 22:42:32 1787

原创 Transformer深入浅出

前方干货预警:这可能是你能够找到的最容易懂的最具实操性的最系统的学习transformer模型的入门教程。我们从零开始用pytorch搭建Transformer模型(中文可以翻译成变形金刚)。训练它来实现一个有趣的实例:两数之和。输入输出类似如下:输入:"12345+54321"输出:"66666"我们把这个任务当做一个机器翻译任务来进行。输入是一个字符序列,输出也是一个字符序列(seq-to-...

2023-08-01 22:53:55 198

原创 微调BaiChuan13B来做命名实体识别

传统上,一般把NLP的研究领域大致分为自然语言理解(NLU)和自然语言生成(NLG)两种。NLU侧重于如何理解文本,包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等;NLG则侧重于理解文本后如何生成自然文本,包括自动摘要、机器翻译、问答系统、对话机器人等。但是以ChatGPT为代表的大模型出来后,这些传统的NLP的细分研究领域基本可以说都失去了独立研究的价值。为什么呢?因为大模型可以...

2023-07-23 12:23:17 820

原创 Baichuan-13B 保姆级微调范例

干货预警:这可能是你能够找到的最容易懂的,最完整的,适用于各种NLP任务的Baichuan-13B-Chat的finetune教程~Baichuan-13B是百川智能于2023年7月11日发布的开源中英双语LLM,各项指标经评测在开源LLM中同尺寸模型中位居前列。Baichuan-13B包括Baichuan-13B-Base和Baichuan-13B-chat两个不同模型。前者仅仅是预训练模型,后...

2023-07-20 00:50:49 3911

原创 用Kaggle免费GPU微调ChatGLM2

前方干货预警:这篇文章可能是你目前能够找到的可以无痛跑通LLM微调并基本理解整个流程的门槛最低的入门范例。门槛低到什么程度,本范例假设你是一个三无用户。1,无NLP经验:你没有扎实的NLP理论知识,只有一些基本的炼丹经验。没关系,我们会在恰当的时候告诉你必要的原理。2,无GPU:你没有任何一块可以使用的GPU。没关系,我们直接在Kaggle环境上使用免费的P100GPU,并给没有kaggle使用经...

2023-07-16 10:36:47 1965

原创 单样本微调给ChatGLM2注入知识~

前方干货预警:这可能也是一篇会改变你对LLM微调范式,以及对LLM原理理解的文章。同时这也是一篇非常有趣好玩,具有强大实操性的ChatGLM2微调喂饭级教程。我们演示了使用AdaLoRA算法,使用1条样本对ChatGLM2-6b实施微调。几分钟就成功注入了"梦中情炉"有关的知识。公众号算法美食屋后台回复关键词:torchkeras,获取本文notebook源码。summary:(1) 只需要1条样...

2023-07-08 21:11:22 1036 1

原创 60分钟吃掉ChatGLM2-6b微调范例~

干货预警:这可能是你能够找到的最容易懂的,最完整的,适用于各种NLP任务的开源LLM的finetune教程~ChatGLM2-6b是清华开源的小尺寸LLM,只需要一块普通的显卡(32G较稳妥)即可推理和微调,是目前社区非常活跃的一个开源LLM。本范例使用非常简单的,外卖评论数据集来实施微调,让ChatGLM2-6b来对一段外卖评论区分是好评还是差评。可以发现,经过微调后的模型,相比直接 3-sho...

2023-07-03 00:46:54 3599 3

原创 算法工程师提升工作效率的5个小工具

算法工程师在日常工作中大部分时间还是在和数据打交道。诸如数据准备,数据清洗,特征分析(EDA) 等等。这里给大家介绍我非常喜爱的5个处理数据的小工具,也是我个人使用比较高频的几个工具,相信可以解决大家的一些痛点。1,一行代码根据关键词抓取百度图片 【数据准备】????????????2,一行代码根据url获取图片 【数据准备】3,一行代码合并多个数据集文件夹 【数据准备】4,五行代码清洗数据集中的重复图片 【数据清...

2023-06-29 23:30:18 197

原创 用BERT做命名实体识别任务

命名实体识别NER任务是NLP的一个常见任务,它是Named Entity Recognization的简称。简单地说,就是识别一个句子中的各种 名称实体。诸如:人名,地名,机构 等。例如对于下面这句话:小明对小红说:"你听说过安利吗?"它的NER抽取结果如下:[{'entity':'person','word':'小明','start':0,'end':2},{'e...

2023-06-26 00:18:12 2056 1

原创 30分钟吃掉DQN算法

表格型方法存储的状态数量有限,当面对围棋或机器人控制这类有数不清的状态的环境时,表格型方法在存储和查找效率上都受局限,DQN的提出解决了这一局限,使用神经网络来近似替代Q表格。本质上DQN还是一个Q-learning算法,更新方式一致。为了更好的探索环境,同样的也采用epsilon-greedy方法训练。在Q-learning的基础上,DQN提出了两个技巧使得Q网络的更新迭代更稳定。经验回放(Ex...

2023-06-19 09:04:00 218

原创 Q-learning解决悬崖问题

Q-learning是一个经典的强化学习算法,是一种基于价值(Value-based)的算法,通过维护和更新一个价值表格(Q表格)进行学习和预测。Q-learning是一种off-policy的策略,也就是说,它的行动策略和Q表格的更新策略是不一样的。行动时,Q-learning会采用epsilon-greedy的方式尝试多种可能动作。更新时,Q-learning会采用潜在收益最大化的动作进行价值...

2023-06-18 22:23:37 359

原创 10种实用的Prompt技巧图解

收集整理了prompt engineering的10种实用技巧,以图解的方式解释了它们的主要原理。本文追求以极简风格逼近这些方法的第一性原理,把黑话翻译成人话,并使用图片范例进行说明。同时也加入了一些自己的理解,如有出入欢迎指正。一,Structured Prompt (结构化提示词) 可以按照 prompt = 角色 + 任务 + 要求 + 提示 的结构设计清晰明了的提示词。简单地说,这个结构...

2023-06-17 21:38:50 3808

原创 使用SwinTransformer进行图片分类

SwinTransformer 是微软亚洲研究院在2021年提出的适用于CV领域的一种基于Tranformer的backbone结构。它是 Shift Window Transformer 的缩写,主要创新点如下。1,分Window进行Transformer计算,将自注意力计算量从输入尺寸的平方量级降低为线性量级。2,使用Shift Window 即窗格偏移技术 来 融合不同窗格之间的信息。(SW...

2023-06-13 23:00:02 1991

原创 使用BERT进行文本分类

本范例我们微调transformers中的BERT来处理文本情感分类任务。我们的数据集是美团外卖的用户评论数据集。模型目标是把评论分成好评(标签为1)和差评(标签为0)。#安装库#!pipinstalldatasets#!pipinstalltransformers[torch]#!pipinstalltorchkeras公众号算法美食屋后台回复关键词 torchkeras, ...

2023-06-05 22:12:08 3667

原创 YOLOv8 训练自己的数据集

本范例我们使用 ultralytics中的YOLOv8目标检测模型训练自己的数据集,从而能够检测气球。#安装!pipinstall-Uultralytics-ihttps://pypi.tuna.tsinghua.edu.cn/simpleimportultralyticsultralytics.checks()一,准备数据 公众号算法美食屋后台回复关键词:yolov8,获取本文...

2023-06-04 18:17:24 1961

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除