- 博客(208)
- 收藏
- 关注
原创 机器学习监督学习实战六:五种算法对新闻组英文文档进行文本分类(20类),词频统计和TF-IDF 转换特征提取方法理论和对比解析
介绍了20 Newsgroups数据集,分为20个不同主题的新闻组,使用了CountVectorizer和TfidfVectorizer两种方法将文本数据转换为数值特征,最终选择了TF-IDF特征用于模型训练和评估。通过10折交叉验证评估了多种算法的性能,其中SVM和LR表现较好。进一步对逻辑回归进行了网格搜索调参准确率达到0.9214%,最终在测试集上验证了调参后的模型准确率、精确率、召回率等。
2025-06-09 16:19:52
715
原创 机器学习监督学习实战五:六种算法对声呐回波信号进行分类
通过10种机器学习算法比较,发现集成学习方法表现最优。首先对特征进行可视化分析,对比了基础算法和集成算法的10折交叉验证准确率。结果显示标准化后模型性能提升,其中额外树(ExtraTrees)表现最佳(准确率88.6%),并通过网格搜索优化超参数。最后利用SHAP值解释模型,揭示关键特征对预测的贡献度。
2025-06-07 15:58:46
1010
原创 机器学习监督学习实战四:九种回归算法对波士顿房价数据进行回归预测和评估方法可视化
机器学习中回归算法,对波士顿房价数据集进行预测,使用九种算法对比结果,其中用 MAE、MSE、MBE、RMSE 和 R^2 分数评价模型,最好的GBoost回归算法使用网格和随机搜索寻找最优参数,最终通过可视化展示真实值和预测折线图和拟合散点图。这些特征重要性、训练集和测试集的真实值与预测值的可视化、性能评估指标、模型的超参数用来作模型解释性。
2025-06-05 18:15:30
1167
原创 机器学习监督学习sklearn实战三:八种算法对印第安人糖尿病预测数据进行分类和比较
自动寻找随机森林模型在Pima Indians糖尿病数据集上的最优超参数组合。通过随机采样参数空间,高效地找到性能较优的参数组合。
2025-06-04 11:35:18
773
1
原创 机器学习分类算法模型性能的评估方法:数据集划分、交叉验证、准确率、性能指标、混淆矩阵、交叉熵损失
机器学习中评估算法模型性能是至关重要的环节。分类模型在不同方面的表现,从而发现模型的优势和不足,进而采取相应的优化措施。
2025-06-03 16:48:49
716
原创 机器学习回归或分类数据预处理中特征重要性选择方法:纯python代码实现
不同的特征选择方法基于不同的原理和标准,因此会产生不同的结果。选择哪种方法取决于具体问题的需求、数据的特性和模型的类型。在实际应用中,通常会尝试多种方法,结合领域知识和交叉验证来选择最适合的特征。
2025-06-02 23:31:40
671
原创 Python中三种不同包读取csv文件数据的方式:numpy、pandas、csv
实际中需要快速读取数值数据并进行数值计算,numpy是一个不错的选择。需要进行复杂的数据处理和分析,pandas会更合适。如果结合Python标准库的灵活性和numpy的数值计算能力,可以使用csv + numpy的方法。
2025-06-02 18:03:18
173
原创 机器学习有监督学习sklearn实战二:六种算法对鸢尾花(Iris)数据集进行分类和特征可视化
项目的主要环节:从数据探索、预处理、模型训练与比较,到结果分析和可视化,是一个标准的分类问题解决方案模板。针对鸢尾花数据集的特点,通过多种可视化手段和模型比较方法,全面评估了不同算法的性能表现。
2025-06-01 17:24:24
1509
10
原创 机器学习无监督学习sklearn实战一:K-Means 算法聚类对葡萄酒数据集进行聚类分析和可视化( 主成分分析PCA特征降维)
帮助分析葡萄酒数据的内在结构,通过无监督学习方法发现样本间的自然分组,评估聚类效果,并直观展示聚类结果。这对于理解葡萄酒的分类特征、品质区分或市场细分具有参考价值。
2025-05-30 00:36:44
1007
原创 机器学习中无监督学习方法的聚类:划分式聚类、层次聚类、密度聚类
不同算法、参数设置可能导致不同聚类结果。聚类效果高度依赖输入特征的质量,需通过数据预处理(如标准化、降维)提升特征有效性。无监督场景下可使用轮廓系数(Silhouette Score)、Calinski-Harabasz 指数等评估簇的紧凑性和分离度;有监督场景下可对比聚类标签与真实标签的一致性(如兰德指数)。
2025-05-28 18:18:04
1141
原创 深度学习模型部署:使用Flask将图像分类(5类)模型部署在服务器上,然后在本地GUI调用。(全网模型部署项目步骤详解:从模型训练到部署再到调用)
实现提供了一个完整的端到端解决方案,从服务器端模型部署到本地GUI调用。你可以根据需要进一步自定义界面和功能。
2025-05-22 17:44:46
1087
原创 机器学习回归预测中预处理的特征工程
特征工程核心原则,结合领域知识构造特征,避免盲目生成无效特征。通过交叉验证评估特征组合效果,逐步筛选和调整。优先保留具有物理意义的特征,便于模型解释和业务落地。通过以上步骤,可系统性地将原始数据转化为高质量特征,为回归模型奠定坚实基础。
2025-05-17 14:59:00
617
原创 机器学习数据预处理回归预测中标准化和归一化
标准化更适合需要保留数据分布信息或对异常值鲁棒性要求较高的场景。归一化更适合数据分布均匀、需固定取值范围的场景。实际应用中可通过交叉验证对比两种方法的效果,选择最优预处理方式。合理使用标准化或归一化,可显著提升模型训练效率和泛化能力,是机器学习流程中不可忽视的关键环节。
2025-05-16 23:56:46
418
原创 机器学习前言2
机器学习正快速渗透到各行各业,但其成功依赖高质量数据、合理算法选择和领域知识结合。机器学习模型是机器学习中的核心组件,它是从数据中学习到的数学表示,用于对新数据进行预测或决策。模型可以看作是一个函数 它将输入数X 映射到输出 Y。机器学习模型是从数据中学习的数学函数,用于预测或决策。主要类型:监督学习、无监督学习、强化学习、深度学习。关键选择因素:任务类型、数据规模、可解释性、计算资源。评估方法:准确率、MSE、轮廓系数等。
2025-05-16 15:59:19
1034
原创 争对机器学习和深度学习里Python项目开发管理项目依赖的工具中方便第三方库和包的安装
requirements.txt和environment.yam文件说明。混合使用:在 environment.yaml 中通过 pip 字段兼容 requirements.txt 的包。版本锁定:使用 pip-tools(生成 requirements.txt)或 conda-lock(锁定 Conda 依赖)确保完全可复现的环境。现代替代方案:考虑 Poetry(pyproject.toml)或 Pipenv(Pipfile)获得更智能的依赖管理。
2025-05-15 20:36:48
520
原创 机器学习模型部署:使用Flask 库的 Python Web 框架将XGBoost模型部署在服务器上(简单小模型)从模型训练到部署再到本地调用
确保服务器防火墙开放了5000端口(或你使用的其他端口),对于生产环境,考虑使用Nginx作为反向代理,添加适当的错误处理和日志记录,根据你的实际模型调整特征预处理步骤,考虑添加输入数据验证,这样你就可以在本地PyCharm中轻松调用部署在服务器上的模型了。
2025-03-27 09:28:44
1019
原创 网站开发和手机APP开发说明:以技术、编程语言、所需库简单说明几个之间区别大部分相同
技术重叠部分:后端、数据库、状态管理、API设计。关键差异:Web依赖浏览器技术(HTML/CSS/JS),APP需适配移动端特性(手势、离线存储)。APP开发需考虑应用商店规则和设备兼容性。建议:先掌握通用技术(如JavaScript/TypeScript + 后端),再根据需求扩展至APP或Web专项领域。
2025-03-27 08:00:00
743
原创 Linux使用集群服务器查看已安装conda环境,且环境名无显示、系统环境混乱等问题
在使用 集群服务器之前可查看,module avail 和 grep 命令来查看系统中可用的 Anaconda 模块及其版本,使用 module list 命令查看已加载的 Anaconda 模块,使用 conda --version 命令查看当前使用的 Anaconda 版本。
2025-03-26 11:16:37
819
原创 机器学习时间序列回归预测数据预处理中特征工程、数据标准化和数据集划分说明
特征工程、数据标准化和数据集划分是机器学习时间序列回归预测中数据预处理的重要环节。通过合理的特征工程、数据标准化和数据集划分,可以显著提高模型的准确性和泛化能力。时间序列数据预处理的关键是保持时间顺序和依赖性,任何标准化或特征工程都应只在训练数据上进行拟合,然后应用到验证/测试集,避免数据泄露
2025-03-26 08:59:51
1499
原创 机器学习回归预测中数据清洗与数据聚合说明
数据清洗和聚合是回归预测中不可或缺的一环。通过系统性地处理缺失值、异常值,并合理聚合数据,可显著提升模型性能。实际应用中需结合业务场景,灵活选择方法,并通过交叉验证优化参数
2025-03-25 09:36:32
570
原创 机器学习数据集划分解释训练集、验证集和测试集
训练集:用于训练模型,让模型学习数据特征。验证集:用于调整超参数和防止过拟合,帮助优化模型。测试集:用于最终评估模型的泛化能力,反映模型在实际应用中的表现。通过合理划分数据集,可以有效避免模型过拟合或欠拟合,提高模型的泛化能力和可靠性。
2025-03-08 15:08:12
1915
原创 Matplotlib库中color 参数颜色有多少种
Matplotlib 支持的颜色名称非常丰富,涵盖了 HTML/CSS 中的大部分颜色。你可以根据需要选择合适的颜色名称来美化你的图表。
2025-03-08 14:53:04
443
原创 数据分析绘制随时间顺序变化图加入线性趋势线——numpy库的polyfit计算一次多项式拟合
时间索引转换:np.arange(len(filtered_data.index)) 将时间索引转换为从 0 开始的整数序列,因为 polyfit 需要数值型的输入。线性拟合:np.polyfit(time_index, filtered_data['wind_obs'], deg=1) 计算线性趋势线的系数。deg=1 表示一次多项式(线性拟合)。趋势线绘制:使用 np.poly1d 创建多项式对象,并通过 polynomial(time_index) 计算趋势线的值,然后将其绘制在图上。
2025-03-08 14:44:49
533
原创 从一个或多个CSV表里读取筛选时间范围指定变量变化趋势
确保CSV文件中的时间列名称与代码中的data_time一致,如果不一致,请修改为实际的列名
2025-03-08 14:31:57
212
原创 Linux服务器Ubuntu系统环境中安装Jupyter Notebook并且配置内核以便在网页端调用
可以在服务器镜像中成功安装并配置 Jupyter Notebook,并方便地调用和使用 Jupyter Notebook 内核。
2025-03-01 23:06:58
561
原创 机器学习模型训练超参数优化使用sklearn库里网格搜索(Grid Search)方法所有参数含义解释
RandomizedSearchCV 是 sklearn.model_selection 模块中的一个类,用于在给定的参数空间中随机搜索最佳的超参数组合。相比于 GridSearchCV,RandomizedSearchCV 不会遍历所有可能的参数组合,而是随机选择一部分组合进行评估,因此在参数空间较大时效率更高。
2025-02-22 19:15:31
935
原创 机器学习做模型预测时超参数优化提升性能(降低评价指标)五种种方法:网格搜索、随机搜索、贝叶斯优化、遗传算法、基于梯度的优化
超参数优化是提升模型性能的关键步骤。代码训练用的到,想到降低评价指标均方误差 (MSE)、均方根误差 (RMSE)、平均绝对误差 (MAE)、决定系数 (R²),这是是几种常用的超参数优化方法:1.网格搜索(Grid Search)2.随机搜索(Random Search)3.贝叶斯优化(Bayesian Optimization)4.遗传算法(Genetic Algorithm)5.基于梯度的优化(Gradient-Based Optimization)
2025-02-22 18:56:06
2142
原创 高性能计算集群中SLURM资源管理和任务调度系统
SLURM集群是HPC计算环境中的重要组成部分,它提供了强大的资源管理和任务调度功能,能够满足大规模计算任务的需求。通过合理配置和管理SLURM集群,可以充分利用集群的计算资源,提高计算效率和性能。
2025-01-12 18:31:28
1007
原创 什么是SSH登录?SSH客户端软件有哪些?
在处理敏感信息(如用户名和密码)时,确保您在一个安全的环境中操作,并避免在公共或不安全的网络上进行这些操作。此外,定期更新您的密码和使用强密码策略也是保护您账户安全的重要措施。
2025-01-11 14:13:38
1389
原创 服务器、电脑和移动手机操作系统
服务器、电脑和移动手机操作系统在定义、主要特点和常见类型等方面存在显著差异。这些操作系统各自具有独特的功能和优势,满足了不同场景下的应用需求。
2025-01-11 13:42:06
654
原创 机器学习模型建立代码编程时可以使用的库和框架
总的来说,选择哪个机器学习库或框架取决于具体的项目需求、团队技术栈以及目标硬件平台。在实际应用中,可以根据项目的实际情况选择合适的库和框架来构建、训练和部署机器学习模型。
2025-01-05 12:32:27
710
原创 作为一名程序员应该知道什么是IDE(集成开发环境,Integrated Development Environment)
IDE(集成开发环境)是专为程序开发设计的软件,集成代码编辑器、编译器、调试器等工具,提升开发效率。主要功能包括代码编辑、项目管理、编译构建、调试及插件扩展。常见IDE如Visual Studio、Eclipse、PyCharm、IntelliJ IDEA、Xcode及轻量级的Visual Studio Code均受开发者欢迎。
2025-01-05 11:32:21
1594
原创 机器学习算法的分类
机器学习算法的分类方式多种多样,每种分类方式都有其独特的算法和应用场景。选择合适的算法不仅取决于数据的特性,还与业务的需求密切相关。
2025-01-04 21:55:54
1104
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人