- 博客(19)
- 收藏
- 关注
原创 速成--数据分析大盘点(三)
本文介绍了Pandas数据处理中的六个实用技巧:1.使用head()和tail()快速查看数据表前后几行;2.通过str.contains()实现字符串筛选;3.用set_index()设置行索引和reset_index()重置索引;4.使用idxmax()和idxmin()获取Series的最大最小值;5.通过df["新列名"]=new_value添加新列;6.利用sort_values()按指定列排序数据。这些方法以筛选奶茶数据为例,展示了如何快速处理和分析结构化数据。
2026-04-06 19:01:44
35
原创 关于代码运行的环境污染与工具混淆问题总结
本文总结了Python编程中常见的环境配置误区:1)Python自带IDE功能有限,需要配合PyCharm使用;2)Anaconda是环境管理工具而非IDE,自带库和环境隔离功能;3)PyCharm可配置Python或Anaconda解释器;4)pip和conda命令的区别在于适用环境和安装位置;5)处理版本兼容问题时,建议在Anaconda的自建环境中操作以避免污染基础环境。文章建议优先使用Anaconda管理环境,因其自带库支持和环境隔离功能能更高效地解决版本冲突问题。
2026-03-21 11:47:22
314
原创 速成--数据分析大盘点(二)
本文介绍了Pandas库中常用的统计函数及其使用方法。主要内容包括:1) DataFrame的轴概念,axis=0表示垂直轴,axis=1表示水平轴;2) 统计函数的基本用法,如mean()、max()、min()、sum()、count()和median();3) 单列统计和多列统计的区别,多列统计返回Series对象;4) round()函数的三种用法,用于数据取整处理。文章通过具体示例说明了这些函数的应用场景和语法格式,帮助读者掌握Pandas的数据统计分析功能。
2026-03-19 20:37:56
331
原创 速成--数据分析大盘点(一)
本文系统总结了Python数据分析的基础知识,重点讲解了NumPy和Pandas两大核心库的使用方法。内容涵盖NumPy数组操作、Pandas的Series和DataFrame数据结构、文件读取(CSV/Excel)、数据索引筛选(列索引、loc/iloc、布尔索引)以及时间数据类型转换(datetime/timedelta/period)等核心知识点。文章采用从基础到进阶的系统讲解方式,结合具体代码示例和常见问题解决方案,旨在为数据分析初学者提供全面的参考指南,帮助建立完整的数据分析知识体系。
2026-03-17 21:14:40
365
原创 VirtualBox 虚拟机及 Ubuntu 安装
本文详细介绍了VirtualBox虚拟机和Ubuntu系统的安装步骤:1)访问VirtualBox官网下载Windows版本并安装;2)下载扩展包完成安装;3)通过清华镜像站获取Ubuntu 24.04.4桌面版ISO文件(注意选择6GiB版本);4)在VirtualBox中新建虚拟机,配置基本信息并加载ISO文件;5)启动安装时需注意网络连接问题:安装过程需断开网络,但更新系统时必须重新连接。全文提供了清晰的图文指引,适合新手按步骤操作。
2026-03-04 20:09:58
91
原创 基于 BP 神经网络的校园快递取件优化系统
摘要:本文介绍了一个基于BP神经网络的校园快递驿站排队时间预测系统开发项目。项目通过收集时段、课程安排、天气等6个关键指标数据,使用双隐含层BP神经网络进行建模,最终实现0.9的可决系数和2分钟内的预测误差。系统部署采用微信小程序形式,通过API接口连接预测模型。作者分享了从数据收集、模型训练到小程序开发的全过程经验,并指出AI生成数据存在规律性问题,建议实际应用时采用真实数据。该项目为校园快递服务优化提供了智能化解决方案。
2026-02-14 12:09:13
827
原创 每天5分钟---六级轻松过
美国教育部长指出,缺勤是学业成绩低下的主要原因。但研究发现,家长批准的请假对学习影响很小。数据显示,有15-18次请假但无无故缺勤的学生,其考试成绩与全勤学生相当。这表明缺勤对学业的影响取决于请假类型,而非单纯缺勤天数。
2026-02-14 11:00:00
27
原创 停止电脑自动更新
本文提供了一种高效解决Windows电脑强制更新问题的方法。首先关闭"自动设置时间"功能,手动将系统时间调整到过去(如2007年),然后在更新设置中找到"高级选项",设置"暂停更新"并将截止日期延长数百年。操作完成后需重新开启自动时间设置。该方法简单快捷,几分钟即可解决问题,有效避免系统强制更新带来的困扰。
2026-02-13 11:29:21
65
原创 5分钟带你读懂机器学习---线性模型(三)
本文主要探讨线性模型中的两类关键问题:类别不平衡问题和降维处理。针对类别不平衡问题,介绍了三种解决方法:欠采样(如EasyEnsemble算法)、过采样(如SMOTE算法)和阈值移动。在降维处理方面,重点讲解了线性判别分析(LDA/Fisher判别分析)的原理和实现步骤,包括计算类内散度矩阵、类间散度矩阵,通过最大化广义瑞利商找到最佳投影方向。这些方法能有效解决实际应用中常见的类别分布不均和维度灾难问题,提升模型性能。
2025-12-07 15:31:20
730
原创 5分钟带你读懂机器学习---线性模型(二)
本文介绍了机器学习中的分类问题,重点讲解了二分类和多分类的解决方法。对于二分类问题,通过引入sigmoid函数(特别是对数几率函数)将线性回归的输出映射到[0,1]区间,解决了单位阶跃函数不连续的问题,并提供了概率化输出。对于多分类问题,介绍了三种拆分策略:一对一、一对多和多对多,分析了各自的优缺点。特别详细说明了多对多策略中的纠错编码(ECOC)方法,通过编码解码过程实现分类,并解释了其纠错原理。文章还对比了线性回归和逻辑回归在建模思路上的异同,帮助读者建立完整的线性模型知识体系。
2025-12-06 16:40:50
560
原创 5分钟带你掌握机器学习---聚类(一)
本文介绍了聚类算法的基础知识,重点阐述了聚类性能度量的两类指标。外部指标通过比较聚类结果与其他算法结果,使用JC系数、FM指数和RI指数进行评估;内部指标则直接评估聚类结果,关注簇内距离(avg,diam)和簇间距离(dmin,dcen),形成DB指数和Dunn指数。文章通过服装店用户分类的实例,说明聚类在无标签数据中的应用,并详细解释了各指标的计算方法和评价标准。
2025-12-05 14:32:52
757
原创 5分钟带你梳理---模糊计算(三)
本文介绍了模糊模式识别的基本概念和两种主要方法。首先解释了模式识别是将待识别对象归类到标准模式库的过程,而模糊模式识别则处理界限模糊的标准库(如"比较高"这类模糊概念)。重点讲解了"点对集"识别方法,包括最大隶属度原则Ⅰ(计算元素对各模糊集的隶属度并取最大值)和Ⅱ(在多个元素中选择隶属度最大的),以及确定隶属度函数的四种方法。其次介绍了"集对集"识别方法,通过计算贴进度(衡量两个模糊集的相似程度)来判断新模糊集的归属。文章通过具体例题详细说明了各种
2025-12-05 14:27:06
684
原创 5分钟带你读懂机器学习---线性模型(一)
本文介绍了线性模型中的线性回归和逻辑回归两种基础算法。首先通过西瓜分类的例子解释了建模的本质是构建函数,并强调了参数训练的重要性。接着讲解了模型评估方法,重点介绍了均方误差(MSE)等回归评估指标。在详细阐述线性回归时,说明了其几何意义是通过数据点拟合最佳直线,并重点讲解了梯度下降法的求解步骤。文章还扩展了多元线性回归的矩阵表示和非线性回归的广义线性函数概念。最后指出尽管深度学习盛行,但简单模型仍具有重要价值,特别是在可解释性方面。
2025-12-04 15:06:03
190
原创 5分钟带你梳理---模糊计算(二)
本文介绍了模糊聚类分析的基本概念和操作步骤。首先补充了模糊相似矩阵(自反+对称)和模糊等价矩阵(自反+对称+传递)的定义,重点讲解了如何通过求传递闭包将模糊相似矩阵转化为模糊等价矩阵,特别介绍了"平方法"计算传递闭包的过程。然后详细阐述了模糊聚类分析的三个主要步骤:1)数据矩阵的建立与标准化;2)模糊相似矩阵的构建;3)聚类操作及动态聚类图的绘制,其中第三步包括求传递闭包、按值聚类和绘制动态图三个子步骤。最后指出将通过例题进一步说明具体计算方法。全文系统性地介绍了模糊聚类分析的理论框架和
2025-12-04 14:31:33
1119
原创 每天5分钟---六级轻松过(二)
文章摘要:将大脑比作肌肉的说法虽然形象但不准确,因为大脑细胞终身存在且持续活跃。目前流行的;大脑训练;应用虽能提升特定任务能力,但研究表明其效果无法迁移到其他认知领域。例如,字母识别训练仅能提高该专项技能,而不会增强整体感知能力。研究人员尚不确定大脑是否真能像肌肉一样锻炼;
2025-11-17 14:34:22
293
原创 每天5分钟---六级轻松过(一)
研究表明学习外语可能有助于延缓痴呆症发作。痴呆症并非正常衰老的必然结果,大多数老年人不会患病。它与普通健忘不同,表现为更严重的认知障碍,如迷路或忘记基本技能。目前该病成因尚不明确,预防措施也未证实,但掌握外语或可成为潜在防护手段。专家提醒,偶尔忘事属正常现象,但若丧失基本能力则需警惕。
2025-11-16 21:22:31
351
原创 5分钟带你梳理---模糊计算(一)
本文简要介绍了模糊计算的基本理论和应用。在理论部分,重点阐述了模糊集合的概念及其与普通集合的区别,指出模糊集合通过隶属度描述程度特征。同时讲解了模糊关系的定义和表示方法,详细说明了模糊矩阵的运算规则,特别是模糊矩阵合成的计算步骤。此外,还介绍了自反矩阵、对称矩阵、传递矩阵等特殊矩阵的性质,以及截矩阵和传递闭包的概念与计算方法。文章最后预告将继续探讨模糊计算在实际中的应用。全文以通俗易懂的方式梳理了模糊计算的核心概念和基本运算方法。
2025-11-16 20:16:49
902
原创 五分钟速通机器学习---集成学习(一)
本文简要介绍了机器学习中的集成学习概念。集成学习是通过结合多个学习器(模型)来完成学习任务的方法,包含两个关键步骤:选择多个学习器和确定结合策略。其优势在于能提高模型准确率,通过少数服从多数等策略使误差相互抵消。集成学习可分为同质/异质集成(按学习器关系)和串行/并行集成(按学习顺序)。同质集成使用相同类型的学习器,而异质集成组合不同类型;并行集成中各学习器独立运行,串行集成则存在依赖关系。后续文章将深入讲解集成学习的具体内容。
2025-11-15 20:38:29
556
1
BP神经网络,有关解决快递取件时间过长的问题
2026-02-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅