Python
文章平均质量分 89
Python
小嗷犬
CSDN人工智能领域优质创作者,阿里云专家博主。
展开
-
BPE算法介绍:解决自然语言处理中的分词难题
BPE是一种无监督的分词方法,它通过对训练语料库进行分析,逐步合并最频繁出现的字符对来构建词汇表。这种方法能够有效地处理多种语言,尤其是当面临大量未见过的数据时表现出色。算法步骤初始化词汇表Step1:从训练语料库中提取所有唯一的字符作为初始词汇表VVV。迭代过程Step2:计算所有可能的字符对出现的频率,找出出现频率最高的字符对xx′x, x'xx′。Step3:将该字符对替换为一个新的词元xx′xx'xx′,并在训练语料库中进行更新。Step4:将新的词元xx′。原创 2024-07-26 15:58:40 · 567 阅读 · 0 评论 -
大模型常用推理参数工作原理
在生成文本时用于控制输出多样性和确定性的三个关键参数:do_sample、temperature、top_k 和 top_p。do_sample 参数决定模型是采用概率采样生成下一个token还是选择最高概率的token。temperature 参数通过调整softmax函数,控制概率分布的平滑度,从而影响输出的随机性或保守性。top_k 和 top_p 参数分别限制了在生成过程中考虑的最高概率token的数量和累计概率比例,进一步引导生成过程中的选择偏向。这些参数可以组合使用,按特定顺序叠加效果。原创 2024-06-09 18:13:34 · 956 阅读 · 4 评论 -
赛事分享 Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs
网上购物非常复杂,涉及从浏览到购买的各种任务,所有这些任务都需要深入了解客户的行为和意图。这就需要能够利用跨任务共享知识的多任务学习模型。然而,目前的许多模型都是针对特定任务的,从而增加了开发成本并限制了有效性。大语言模型(LLM)可以通过一个模型处理多个任务,只需稍作提示调整,从而有可能改变这种状况。此外,大语言模型还可以通过提供互动和及时的建议来改善客户体验。原创 2024-03-23 22:02:08 · 1431 阅读 · 6 评论 -
基于 Transformer 的中文对联生成器
本项目是一个基于 Transformer 的中文对联生成器,使用 PyTorch 构建模型,使用 Gradio 构建 Web UI。原创 2024-02-28 15:42:32 · 696 阅读 · 1 评论 -
Pytorch 自用 Scheduler 分享
本文介绍了 Warm-up + CosineAnnealingLR、Warm-up + ExponentialLR 和 Warm-up + StepLR 三种学习率调度器,并给出了使用模板。原创 2024-02-24 13:32:07 · 687 阅读 · 2 评论 -
变分自编码器(VAE)PyTorch Lightning 实现
变分自编码器(Variational Autoencoder,VAE)是一种深度学习中的生成模型,它结合了自编码器(Autoencoder, AE)和概率建模的思想,在无监督学习环境中表现出了强大的能力。VAE 在 2013 年由 Diederik P. Kingma 和 Max Welling 首次提出,并迅速成为生成模型领域的重要组成部分。原创 2024-02-16 14:30:31 · 1579 阅读 · 1 评论 -
DataCastle 员工离职预测 Baseline
给定影响员工离职的因素和员工是否离职的记录,建立模型预测有可能离职的员工。评分算法为准确率,准确率越高,说明正确预测出离职员工与留职员工的效果越好。数据主要包括影响员工离职的各种因素工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等. 以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在 train.csv 和 test_noLabel.csv 两个文件中,字段说明如下:Age:员工年龄 Label:员工是否已经离职,1 表示已经离职,2 表示未离职,这是目原创 2024-02-04 17:58:08 · 1441 阅读 · 2 评论 -
机器学习 低代码 ML:PyCaret 的使用
PyCaret是一个开源的低代码 Python 库,专注于简化机器学习(ML)工作流程并加速实验过程。它特别适用于数据科学家、分析师和开发人员,通过减少实现 ML 解决方案所需的繁琐编码工作来提高工作效率。PyCaret 可以在一个统一且用户友好的接口下提供多种机器学习任务的支持,包括但不限于分类、回归、聚类、异常检测、关联规则挖掘等。低代码自动化PyCaret 允许用户通过简洁的 API 调用快速执行数据预处理、特征工程、模型训练、模型评估和模型选择等步骤。原创 2024-01-31 23:06:15 · 1123 阅读 · 0 评论 -
Pandas 并行计算:Pandarallel 的使用
是一个 Python 库,设计用于简化并行处理在 Pandas DataFrame 上的操作,特别针对那些原本串行执行的applymap和applymap等方法。它通过利用多核 CPU 的优势,在本地环境中实现并行计算,从而显著提高数据处理速度。简单易用Pandarallel 无需用户显式管理进程或线程,只需在代码开始处初始化一次,之后就可以直接使用类似 Pandas 的接口进行并行化操作。在初始化时,可以指定参数如来显示进度条,或者调整nb_workers参数以设置使用的 CPU 核心数量。原创 2024-01-30 17:23:19 · 1576 阅读 · 0 评论 -
机器学习 流形数据降维:UMAP 降维算法
UMAP(Uniform Manifold Approximation and Projection)是一种先进的非线性降维技术,用于将高维数据集转换为低维空间中的表示,同时尽可能保留原始数据的复杂结构和拓扑特性。它特别适用于可视化分析和机器学习领域的预处理步骤。原创 2024-01-30 17:23:08 · 2456 阅读 · 1 评论 -
机器学习 高维数据可视化:t-SNE 降维算法
t-SNE 的全称为 t-Distributed Stochastic Neighbor Embedding,是一种非线性降维算法,它可以将高维数据映射到低维空间,同时保持数据间的相对距离不变。t-SNE 通常用于可视化高维数据,它可以将高维数据映射到二维或三维空间,从而可以通过图形的方式展示数据的特征。相比于 PCA 等线性降维算法,t-SNE 能够更好地保留数据的局部结构,因此在可视化高维数据时,t-SNE 通常能够展示出更好的效果。原创 2023-12-16 23:49:46 · 2183 阅读 · 3 评论 -
机器学习 sklearn 中的超参数搜索方法
在建模时模型的超参数往往会对精度造成一定影响,而设置和调整超参数的取值,往往称为**调参**。在实践中调参往往依赖人工来进行设置调整范围,然后使用机器在超参数范围内进行搜索,找到最优的超参数组合。在 sklearn 中,提供了四种超参数搜索方法:- `GridSearchCV`- `RandomizedSearchCV`- `HalvingGridSearchCV`- `HalvingRandomSearchCV`原创 2023-12-07 22:10:58 · 1486 阅读 · 7 评论 -
机器学习 类别特征编码:Category Encoders 库的使用
是一个用于将分类变量编码为数值的 Python 库,它提供了多种不同的编码技术。这些编码技术可以将分类变量转换成数值表示,以便在机器学习算法中使用。这个库的设计与 scikit-learn 类似,因此可以很容易地与 scikit-learn 的流程和工具集成。对 Pandas DataFrame 的原生支持:它支持 Pandas DataFrame 直接作为输入,也可以指定输出类型为 Pandas DataFrame。灵活的列配置。原创 2023-12-07 20:31:50 · 1326 阅读 · 1 评论 -
「ResNet-18」70 个犬种的图片分类
「ResNet-18」70 个犬种的图片分类原创 2023-11-21 18:30:34 · 330 阅读 · 5 评论 -
「MobileNet V3」70 个犬种的图片分类
「MobileNet V3」70 个犬种的图片分类原创 2023-11-21 17:47:41 · 157 阅读 · 0 评论 -
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析,特征类别、缺失率、类别分布、个数分布、建模意见原创 2023-10-16 22:24:09 · 1276 阅读 · 8 评论 -
Python 数据可视化:Seaborn 库的使用
Seaborn是一个基于 Python 的数据可视化库,它建立在 matplotlib 之上,并与 pandas 数据结构密切集成。Seaborn 的主要目的是通过使用更高级的界面来制作有吸引力的统计图形,从而使可视化变得更简单。Seaborn 提供了更高级的界面来绘制有吸引力的统计图形,例如散点图、条形图、箱线图等。这些图形可以通过几行代码快速生成,而不需要手动调整每个细节。Seaborn 包括几个预定义的主题,可以用于改变图形的外观。这使得它更容易创建美观且专业的图形。原创 2023-09-15 00:14:58 · 797 阅读 · 1 评论 -
Python 背包问题
背包问题(Knapsack Problem)是一类常见的组合优化问题。其问题描述为:给定一个固定大小、能够携重 WW 的背包,以及一组有价值和重量的物品,找出一个最佳解决方案,使得装入背包的物品总重量不超过 WW,且总价值最大。原创 2023-07-07 21:48:34 · 2667 阅读 · 0 评论 -
打家劫舍问题 Python题解
本文将为大家讲解动态规划经典问题——打家劫舍问题,并附有Python题解。原创 2023-05-25 00:59:09 · 797 阅读 · 1 评论 -
Python 运行加速小技巧
本文介绍了一些 Python 加速的小技巧,可以用在日常算法练习和算法竞赛中。原创 2023-03-27 23:22:28 · 465 阅读 · 0 评论 -
Python 容器的时间复杂度
在实际应用中,我们应该根据具体的场景来进行选择,而不是盲目地使用单一容器。在需要高速度的情况下,我们可以选择常用操作时间复杂度低的容器,但是需要注意的是,效率优化后的容器可能会占用更多的内存,所以也并不是无脑使用效率更高的容器就行了,必须结合场景进行考量,选择最合适的容器。原创 2023-03-24 20:46:57 · 544 阅读 · 0 评论 -
Python 优先队列:heapq库的使用
heapq库是 Python 标准库中的一部分,它提供了一些堆操作的函数,可以用来实现优先队列。优先队列是一种特殊的队列,它的每个元素都有一个优先级,元素的出队顺序是按照优先级从高到低的顺序进行的。优先队列的实现有多种方式,其中最常用的是堆。堆是一种特殊的树,有两种类型,分别是最大堆和最小堆。最大堆的每个节点的值都大于或等于其子节点的值,最小堆的每个节点的值都小于或等于其子节点的值。堆的根节点是堆中的最大值(最小堆的根节点是最小值)。heapq。原创 2023-03-15 17:33:50 · 584 阅读 · 0 评论 -
[Python题解] CodeForces 1804 D. Accommodation
Annie is an amateur photographer. She likes to take pictures of giant residential buildings at night. She just took a picture of a huge rectangular building that can be seen as a table of n * m windows. That means that the building has n floors an原创 2023-03-13 13:56:46 · 594 阅读 · 1 评论 -
[蓝桥杯 2016 省 B] 交换瓶子 Python 题解
[蓝桥杯 2016 省 B] 交换瓶子 Python 题解原创 2023-03-11 23:13:26 · 430 阅读 · 2 评论 -
Python 二分查找:bisect库的使用
bisect库是 Python 标准库中的一部分,它提供了二分查找的功能。二分查找是一种在有序列表中查找某一特定元素的搜索算法。它的时间复杂度为OlognO(\log n)Ologn,比顺序查找的时间复杂度OnO(n)On要有效率。原创 2023-03-10 17:40:39 · 1793 阅读 · 0 评论 -
AI生成图像竟如此真实了?Stable Diffusion Model本地部署教程
Stable Diffusion Model 是一个基于扩散模型的图像生成模型。stable-diffusion-webui 是 AUTOMATIC1111 大佬在 Github 上开源的一个专用于图片生成模型的 WebUI,可以在本地部署,支持导入模型和自己训练。重要的是,该项目的部署方式非常简单,不需要任何的编程基础,环境也会帮你自动配置好;GUI 的操作也非常简单,所见即所得。本文介绍了如何在本地部署 Stable Diffusion + WebUI。展示了部分生成图片。原创 2023-02-21 23:42:46 · 11580 阅读 · 7 评论 -
Pytorch 基础
本文是对 Pytorch 的基础知识的总结,包括 Pytorch 的简介、基础知识、常用函数等。原创 2023-01-31 15:52:52 · 593 阅读 · 0 评论 -
Python 海象运算符
海象运算符,即:=,在 PEP 572 中被提出,并在 Python3.8 版本中发布。海象运算符的英文原名叫,即赋值表达式。它由一个冒号和一个等号组成,即:=。而它被称作(海象运算符),是因为它长得像一只海象。综上所述,海象运算符可以用于一些需要表达式的地方,比如if语句、while循环、推导式、三元表达式等。它一定程度上减少了代码的行数,使代码更加简洁,甚至在某些情况下可以提高程序的效率;但通常情况下,使用海象运算符会降低代码的可读性,使代码更难以理解。原创 2023-01-28 00:04:30 · 6300 阅读 · 2 评论 -
Pytorch 基于ResNet-18的物体分类(使用CIFAR-10数据集)
CIFAR-10 是一个更接近普适物体的彩色图像数据集。CIFAR-10 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。残差神经网络(ResNet) 是由微软研究院的 何恺明、张祥雨、任少卿、孙剑 等人提出的。ResNet 在 2015 年的 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)中取得了冠军。原创 2022-11-08 22:00:29 · 3143 阅读 · 11 评论 -
Pytorch 基于ResNet-18的服饰识别(使用Fashion-MNIST数据集)
残差神经网络(ResNet) 是由微软研究院的 何恺明、张祥雨、任少卿、孙剑 等人提出的。ResNet 在 2015 年的 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)中取得了冠军。残差神经网络 的主要贡献是发现了“退化现象(Degradation)”,并针对退化现象发明了 “快捷连接(Shortcut connection)”,极大的消除了深度过大的神经网络训练困难问题。神经网络的“深度”首次突破了 100 层、最大的神经网络甚至超过原创 2022-11-07 22:42:52 · 2623 阅读 · 3 评论 -
Pytorch 基于NiN的服饰识别(使用Fashion-MNIST数据集)
Network In Network (NIN) 是由 Min Lin 等人于 2014 年提出,在 CIFAR-10 和 CIFAR-100 分类任务中达到当时的最好水平,其网络结构是由三个多层感知机(NiN块)堆叠而成。NiN 模型论文 《Network In Network》 发表于 ICLR-2014,NIN 以一种全新的角度审视了卷积神经网络中的卷积核设计,通过引入子网络结构代替纯卷积中的线性映射部分,这种形式的网络结构激发了更复杂的卷积神经网络的结构设计,GoogLeNet 的 Inceptio原创 2022-11-06 23:31:44 · 798 阅读 · 2 评论 -
Pytorch 基于VGG-16的服饰识别(使用Fashion-MNIST数据集)
VGG-16 网络是14年牛津大学计算机视觉组和 Google DeepMind 公司研究员一起研发的深度网络模型。该网络一共有16个训练参数的网络,它的兄弟版本如下图所示,清晰的展示了每一级别的参数量,从11层的网络一直到19层的网络。VGG-16 网络取得了 ILSVRC 2014 比赛分类项目的第2名,定位项目的第1名。VGGNet 网络结构简洁,迁移到其他图片数据上的泛化性能非常好。VGGNet 现在依然经常被用来提取图像特征,该网络训练后的模型参数在其官网上开源了,可以用来在图像分类任务上进行在训原创 2022-11-05 22:42:39 · 2106 阅读 · 1 评论 -
Pytorch 基于AlexNet的服饰识别(使用Fashion-MNIST数据集)
Fashion-MNIST是一个替代MNIST手写数字集的图像数据集。它是由Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。的大小、格式和训练集/测试集划分与原始的MNIST完全一致。的训练测试数据划分,28x28的灰度图片。AlexNet 是2012年 ImageNet 竞赛冠军获得者 Hinton 和他的学生 Alex Krizhevsky 设计的。AlexNet 中包含了几个比较新的技术点,也首次在 CNN 中成功应用了 ReLU原创 2022-11-04 22:10:46 · 2433 阅读 · 6 评论 -
Pytorch 基于LeNet的手写数字识别
使用MNIST数据集(Mixed National Institute of Standards and Technology database)。是美国国家标准与技术研究院收集整理的大型手写数字数据库,包含60,000个示例的训练集以及10,000个示例的测试集。本文使用 Pytorch 自动下载。LeNet是由Yann Lecun提出的一种经典的卷积神经网络,是现代卷积神经网络的起源之一。本文使用的LeNet为LeNet-5原创 2022-11-03 17:22:34 · 2013 阅读 · 6 评论 -
Python sklearn实现K-means鸢尾花聚类
使用开源数据集“鸢尾花数据集”。包含3种类型数据集,共150条数据;数据包含4项特征,花萼长度、花萼宽度、花瓣长度、花瓣宽度;将80%的数据划分为训练集,20%划分为测试集。原创 2022-10-27 13:57:51 · 3465 阅读 · 10 评论 -
Python sklearn实现SVM鸢尾花分类
使用开源数据集“鸢尾花数据集”。包含3种类型数据集,共150条数据;数据包含4项特征,花萼长度、花萼宽度、花瓣长度、花瓣宽度;将80%的数据划分为训练集,20%划分为测试集。原创 2022-10-26 23:46:58 · 2284 阅读 · 2 评论 -
[做初中数学题做到打起来了]跟同事为了他小孩的数学题杠上了
4只小鸭子在一个大的圆形水池中,分别随机的出现在圆圈中的任意一点。4只鸭子出现在同一个半圆内的概率是多少?本文将带领大家使用蒙特卡洛方法求解此题。原创 2022-10-22 10:14:24 · 1367 阅读 · 4 评论 -
Python 三元表达式的另类实现
它在参与表达式运算时,会让表达式更短,从而更显。本文将教大家 Python 三元表达式的。,在参与表达式计算时显得不那么简洁。,其长度会短于传统三元表达式。通过三元表达式,可以将。原创 2022-10-14 23:58:13 · 243 阅读 · 1 评论 -
Python 文件存储:pickle 和 json 库的使用
在 Python 中, 可以通过第三方库 json 方便地实现 JSON 格式字符串与 Python 字典和列表的相互转换。JSON(javascript object notation)是一种和语言无关的轻量级数据交换格式, 采用文本格式来存储和表示数据。模块能够将 Python 对象直接存储到文件中。在需要使用数据时,直接从文件中读取,并还原为 Python 对象。因此, 存储的文件如果直接使用文本编辑器,则打开无法查看具体内容。在 Python 中, 提供的。相反,将上面代码中的。原创 2022-10-07 21:06:41 · 1321 阅读 · 2 评论 -
Python 文件操作与路径
假如在根目录的 Users 文件夹下有一个文件夹 xiaoaoquan, 其中有一个 Documents 文件夹,存储了 report.docx 文件。路径指明了文件在计算机中存储的位置。函数创建文件对象赋值给 file1 后, 直接查看其内容可以看到该 对象打开的物理文件(含路径和文件名),打开模式和编码。码只能表示英文字母和符号的限制, 为每种语言的每个字符设定了唯一的编码,以满足跨语言、跨平台进行文本转换和处理的要求。方法返回指 定目录中包含的文件和子目录列表,默认情况下返回当前工作目录中的信息。原创 2022-10-07 21:01:25 · 4044 阅读 · 3 评论