SmallBambooCode-CSDN博客

原创【人工智能】从PyTorch入门到选定科研方向（重磅）

这是一篇PyTorch学习与科研实践的经验总结指南，作者分享了自己从入门到选定研究方向的全流程方法论。文章首先强调独立思考的重要性，反对盲目跟风。核心内容包括：高效论文阅读技巧（从综述入手、复现代码、批判性思考）、数据处理建议（选择代表性数据集、数据增强）、模型实验要点（多次试验、源码分析、记录日志）、研究方向选择策略（锁定细分领域、善用学术工具）以及项目启动方法（复现改进、设定小目标）。最后通过学长的忠告提醒读者做好时间管理，保持科研热情。全文强调实践出真知，鼓励读者在借鉴经验的同时保持创新思维。

2025-07-28 10:01:49 306

原创【人工智能】【Python】各种评估指标，PR曲线，ROC曲线，过采样，欠采样（Scikit-Learn实践）

本文介绍了信用卡交易欺诈检测的案例研究。使用包含28个PCA特征(V1-V28)以及交易时间和金额的284,807条记录数据集，其中仅有492笔欺诈交易。为解决数据不平衡问题，采用了SMOTE过采样技术，通过合成少数类样本平衡数据集。实验展示了数据预处理过程，包括特征选择、查看数据分布以及应用SMOTE算法生成平衡样本。该案例旨在构建分类器识别异常交易，防范信用卡欺诈风险，为金融风控提供技术支持。

2025-07-27 15:22:11 690

原创【人工智能】【Python】在Scikit-Learn中使用网格搜索对决策树调参

在鸢尾花数据集（n=150）中，通过三维参数空间遍历（「criterion/max_depth/min_samples_leaf」）结合6折分层验证，实现决策树准确率从92.1%至97.3%的跃升。实验揭示：信息熵准则在深层树（depth=8）时展现分类优势，叶节点约束（min_samples=3）有效平衡过拟合风险^，但计算成本增加14.3%。该范式为中小型数据集（n<10^3）的模型调优提供方法论参考，需警惕参数交互的非线性效应。

2025-03-16 12:53:48 503

原创【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART）

本文通过Scikit-Learn实现对比ID3与CART决策树算法，解析信息熵与基尼指数的分裂准则差异。实验使用Iris数据集验证算法性能，揭示random_state参数对数据划分和树结构的双重控制作用。可视化展现特征选择优先级，指出sklearn框架下ID3实为CART的熵准则特例，建议工程部署时关注树深度控制与特征重要性分析，平衡模型精度与泛化能力。

2025-03-14 11:34:22 484

原创【人工智能】【Python】在Scikit-Learn中使用KNN（K最近邻算法）

在Scikit-Learn中使用KNN（K最近邻算法），代码体现了机器学习项目的典型工作流：数据准备→特征工程→模型训练→参数调优→性能评估。特别值得注意的是对数据分布保持（stratify）、特征标准化、交叉验证等机器学习最佳实践的完整实现，这些细节处理对模型性能有实质性影响。最终的预测概率输出也为后续的决策阈值调整等业务场景应用提供了扩展接口。

2025-03-04 19:03:50 375

原创【WordPress】发布文章时自动通过机器人推送到钉钉

即可实现自动推送，推送内容包括文章标题、文章设置的人工摘要（若无则提取文章内容前20个字）、文章链接。

2025-02-25 17:27:55 336

原创【人工智能】我到底该怎么学？科研在二本有意义吗？怎么找资源？

目前在科研团队中还是学的太浅了，如果只发动我的大局观看自己的科研项目的话，只能做到照猫画虎的程度，所以我倒是希望可以在接下来认真学习机器学习、深度学习和数字图像处理这三门专业课，相信深挖这三门课可以让我有一些模型改进的思路。科研没有想象中那么容易，机器学习，深度学习都非常难，不如多学408和考研那些，先进笔试才有机会复试。目前我的情况就是河南二本人工智能专业，只能说开局情况很垃圾，不过有了自己在大一到大二上的努力加持（具体见我的个人经历和年度总结），目前的“逆天改命”也可以改为“合理规划翻盘计划”了。

2025-02-07 23:30:06 192

原创【Flask】在Flask应用中使用Flask-Limiter进行简单CC攻击防御

并且你可以选择使用一个数据库（Redis默认有16个数据库，编号为0-15）。，并配置使用Redis作为存储。我自己使用的是宝塔进行搭建Python的Flask项目，整体根据以上步骤是基表方便实现的。在Flask应用的配置文件中，指定Redis的连接地址。如果你使用的是Redis集群或其他定制的Redis服务，可以根据需要修改。存储限流信息，确保应用不会在高并发的情况下发生性能瓶颈。：确保Redis服务在本地或服务器上运行，默认端口是。：运行Flask应用并进行测试，确保限流机制有效。

2025-01-25 21:56:49 1097

原创【SQL】期末复习SQL语法详细总结

用于创建一个新的数据库。

2024-12-29 09:27:11 1069

原创【人工智能】阿里云PAI平台DSW实例一键安装Python脚本

阿里云的DSW实例自带的镜像很少而且并不好用，所以我在这里写三个一键编译安装Python3.8，Python3.9，Python3.10的Shell脚本。

2024-11-09 12:53:09 594

原创【人工智能】如何评价一篇论文

SCI（Science Citation Index，科学引文索引）期刊的分区是根据期刊影响因子（Impact Factor，IF）在特定学科领域的排名来划分的，通常分为四个区（Q1、Q2、Q3、Q4）。需要注意的是，虽然期刊的影响因子和分区是评价论文质量的重要指标，但最终还是要结合论文本身的内容质量、创新性和对领域的贡献进行全面评价。：论文发表在Q1或Q2期刊通常意味着该论文具有较高的学术贡献或创新价值，而Q3、Q4期刊则可能较少关注前沿研究或影响力较小。上面是8个免费的数据集，下面是33个更多数据集。

2024-11-03 10:40:49 1386

原创【人工智能】Linux系统Mamba安装流程

之前，你需要确保已安装正常的PyTorch环境。

2024-09-22 13:59:07 919

原创【人工智能】如何在白嫖的阿里云PAI平台上跑模型？

在“交互式建模（DSW）”中新建实例，阿里云自带的示例镜像是很少的，所以我们只需要筛选出适合你的项目的CUDA版本就好。DSW实例可以看作是一个Linux虚拟机，之后我们在实例中新建另一个Python环境使用即可。解压zip：unzip your_zip_file.zip -d output_directory。新建完实例后我们打开实例控制台，切换到Terminal终端板块，开始安装Python。安装完Python的全新环境之后使用pip安装Pytorch和其他软件包就行了。

2024-08-19 11:31:43 834

原创【PVE】新增2.5G网卡作为主网卡暨iperf测速流程

新增网卡的首先当然需要关闭PVE母机，把新网卡插上，我用淘宝遥现金搞了个红包，花了26元买了块SSU的2.5G网卡。然后保存，应用配置，此时日志不会显示出来了，这是正常的，因为连接PVE的后台的网卡已经变味了新网卡，现在我们把网线换到新网卡即可重新进入PVE后台。插上之后启动PVE，在后台即可看到新的网卡“enp3s0”。当然它默认是关闭的。可见这网卡速度还是可以的，能跑到2.35G，一般便宜的2.5G网卡也就这水平了。网卡启动之后我们编辑Linux Bridge，将桥接端口改为新的网卡名称。

2024-07-10 17:43:01 3862

原创 Proxmox VE（PVE）上手配置指南

①更换软件源为ustc，关闭企业更新源 ②关闭网页订阅提示。或者使用官方提供的一键安装脚本（使用git）ssh链接或后台shell，输入以下命令。在数据中心的存储中删除local-lvm。①在/var目录下创建一个swap目录。为local添加其他存储内容。在/etc/fstab中添加。③创建一个swap分区文件。给予对应权限之后打开脚本。用ftp工具导入PVE。④格式化文件为交换空间。

2024-06-27 08:30:33 2029

原创【Python】Flask问答系统Demo项目

整体来说这个项目的思路就是使用Flask并联合Jinja2模板渲染引擎，在GET请求Flask后端路径时返回响应html文件，同样在html文件中可以通过JavaScript等手段发送POST请求到后端进行提交form的操作。这个项目让我对Flask加深了了解，比如说Flask中的蓝图，使用SQLAlchemy（flask_sqlalchemy包）操作数据库，使用flask_mail包发送邮件，使用装饰器做一个登录检测来屏蔽未登录用户的访问。

2024-06-11 17:11:17 1002

原创【机器学习】【深度学习】优化器（Optimizer）

优化器(Optimizer)是深度学习中的一个核心的概念，用于更新神经网络的权重，以减少或最小化损失函数(loss function)的值。损失函数衡量了模型的预测值与真实值之间的差异，而优化器的目标是通过调整网络参数来最小化这个差异，从而提高模型的准确性和性能。在神经网络训练过程中，优化器在反向传播过程中起着至关重要的作用。反向传播计算了损失函数相当于模型参数的梯度(即损失函数的导数)，优化器则使用这些梯度来更新模型的参数。

2024-06-08 09:29:07 6801 2

原创【Python】【PVE】使用PVE-API对虚拟机进行远程关机

注意：这里的特权分离是指API令牌是否单独授权，如果取消勾选，则API令牌的权限与你选择的用户拥有的权限完全相同，如果勾选，则需要在权限一栏根据所需为令牌添加对应的权限，建议单独授权。令牌ID自己取名字即可。

2024-06-06 10:44:52 1583

原创【Python】让我们来生成二维码吧

创建二维码图片时的make_image方法中的fill_color参数是设置二维码的颜色，使用的是HEX颜色，如果你不知道如何获取HEX颜色代码，请在线搜索。注意：这个代码中我使用hashlib模块来计算文件名，如果你不需要自动生成文件名可以把generate_filename()函数删掉。安装qrcode包：pip install qrcode[pil]安装Pillow包：pip install Pillow。

2024-06-06 08:18:56 374

原创【Python】pyinstaller打包时添加详细信息

版本号：filevers，prodvers，FileVersion，ProductVersion。在要被打包的py文件同级目录新建version.txt，写入以下内容。应用名称：InternalName，FileDescription。语言：Translation（以上示例是简体中文）原始文件名称：OriginalFilename。版权信息：LegalCopyright。公司名：CompanyName。在打包时加入以下参数即可。

2024-06-04 08:54:58 695

原创【机器学习】【深度学习】批量归一化（Batch Normalization）

归一化指的是将数据缩放到一个固定范围内，通常是 [0, 1]，而标准化是使得数据符合标准正态分布。归一化的作用是使不同特征具有相同的尺度，从而使模型训练更加稳定和快速，尤其是对于使用梯度下降法的算法。而标准化的作用加快模型收敛速度，提高模型的性能。批量归一化用于加速神经网络的训练并提高模型的稳定性。它在每个批次的数据上进行标准化，通过对每层的输入进行归一化处理，使得网络中间层的激活值保持在一个较小的范围内，有助于加速模型的收敛，同时减少了梯度消失和爆炸的问题。所以批量归一化特别适合深层网络。

2024-05-28 20:51:39 1457

原创【机器学习】【深度学习】正则化（Regularization）

过拟合意味着模型具有很高的方差（高方差意味着模型对训练数据中的微小变化非常敏感），当你的模型中的参数越多，模型的灵活性就越大（拟合能力强），在模型中调整的东西越多，就越有可能有高方差。例如我们现在要把右图的灰色和绿色点区分开，需要使用神经网络进行拟合函数，若函数有n次项，那么预测函数就会有n个弯曲点，弯曲点越多在某种程度上表示拟合度更大，所以我们需要减少高次项或者其权重（高次项的系数）。正则化有两种方式，第一种是限制模型的灵活性，例如有L1正则化，L2正则化，Dropout和Early Stoping。

2024-05-22 16:02:00 1546

原创【Python】【PyTorch】超参数对于训练的影响

示例EpochsBatch SizeLearning Rate总结Epochs（训练轮数）Test Accuracy: 增加训练轮数可以提高测试准确率，特别是在Test Accuracy尚未收敛时。训练轮数过多可能导致过拟合，反而降低测试的准确率。当训练轮数合适时，测试准确率会逐渐提高并趋于稳定。Test Loss: 在模型尚未收敛时，增加训练轮数可以降低测试损失。但过多的训练轮数可能导致过拟合，进而测试损失上升。当训练轮数合适时，测试损

2024-05-20 15:17:50 723

原创【Python】【机器学习】在训练代码中建立混淆矩阵

for t, p in zip(targets, preds)是同时遍历targets（真实标签）和真实标签对应的preds（预测标签），然后在conf_matrix的t.item()和p.item()位置更新混淆矩阵，也就是+=1。outputs.argmax(1)用于获取输出的最大预测值（也就是Top-1），output是二维张量：[batch_size, 类别数]；preds是一维张量[batch_size]，相当于提取出一个类别。

2024-05-18 10:12:00 804

原创【Python】【机器学习】混淆矩阵的各项指标计算

False Negative (FN) = **明明是正例，但很不幸，我猜它是反例的数量。精确率（Precision）精确率表示**模型预测为正类的样本中，实际为正类的比例。**它衡量了模型在正类预测中的准确性。召回率（Recall）召回率表示**实际为正类的样本中，被模型正确预测为正类的比例。True Negative (TN) = **是反例，且很幸运我也猜它是反例的数量。True Positive (TP) = **是正例，且很幸运我也猜它是正例的数量。**此处4表示有4张图片是猫，且我也猜它是猫。

2024-05-17 14:08:45 2166

原创深度学习中的一些概念

欠拟合是指模型没有很好地捕获到数据特性，不能完整地表示数据的全部信息，也就是模型的复杂度低于应有的水平。例如，假设一个数据集实际上服从二阶多项式分布，但我们使用一阶线性模型去拟合它，这样的模型就会出现欠拟合。由于模型过于简单，它在训练集上的预测表现就会很差。

2024-05-12 20:53:00 456

原创【训练与预测】02 - 完整的模型验证套路

验证一个模型就是指使用已经训练好的模型，然后给它提供输入。

2024-05-09 17:47:59 756

原创解决Windows11终端中的程序运行结束后不会自动关闭

一开始我以为这是IDE搞的鬼，结果我确保IDE设置正确，调试结束后直接关闭cmd窗口，可是还是会出现这个问题。但是在我的其他电脑或者虚拟机中就没有这个问题。于是我找了找Windows11的Terminal设置，在其深处藏着一个选项。找到Terminal中的配置文件-默认值-高级-关闭行为，把这个选项改为自动，以上问题就解决了，之前这里的选项是“从不自动关闭”。

2024-05-08 17:33:03 4722 1

原创【训练与预测】01 - 完成的模型训练套路

当在训练神经网络时，如果使用了Dropout，那么在训练阶段，每次前向传播都会随机关闭网络的一部分神经元（即丢弃），以防止过拟合。然而，在评估或测试过程中，你需要使用全部神经网络，因此dropout应该被关闭，这就需要用到网络对象名.eval()。网络对象名.train()和网络对象名.eval()是用于开启网络的训练模式和测试模式，但是没有写这两段代码时，训练也没有问题，这是怎么回事？因此，虽然在不使用train()和eval()切换模式的情况下，你的神经网络依然可以运行，但是可能无法达到最优表现。

2024-05-07 18:09:35 982

Python Flask问答系统Demo项目.zip

空空如也