- 博客(29)
- 收藏
- 关注
原创 Python 随机森林算法:原理、实现与完整案例解析
本文介绍了随机森林(RandomForest)这一经典集成学习算法。随机森林通过多棵决策树的投票机制实现预测,具有高准确率、抗过拟合和可解释性强的特点。文章详细讲解了算法的两大随机机制(随机样本采样和随机特征选择)及分类/回归任务的处理逻辑,并提供了两个完整案例:1)鸢尾花品种分类(准确率100%),2)波士顿房价回归(R²=0.87)。案例包含数据预处理、模型训练、评估和特征重要性分析的全流程代码实现,同时介绍了超参数调优方法。随机森林适用于各类分类/回归任务,特别适合需要特征重要性分析的场景,是机器学习
2025-10-28 12:00:00
648
原创 幸福指数数据分析与预测:从数据预处理到模型构建完整案例
本文以幸福指数公开数据集为案例,系统演示了从原始 csv 到可落地模型的完整机器学习流程。首先进行数据质量检查:删除重复样本,将“无法回答”的异常标签-8 修正为中间值 3,并依据缺失率差异化处理——剔除缺失率>60 % 的高稀疏特征,对配偶、子女、社交等低缺失字段分别用 0、7、中位数等策略填充,保证数据完整性。随后开展特征工程:利用调查时间与出生年份衍生年龄,并对收入、身高、公共服务评分等 14 项数值变量做 Z-Score 标准化以消除量纲影响;类别变量统一独热编码。
2025-10-27 10:42:53
1017
原创 Python决策树:从原理到实战应用
Python中的决策树是一种监督学习算法,通过树状结构模拟决策过程,广泛应用于分类和回归任务。核心原理包括节点分裂准则(分类用Gini指数/信息增益,回归用MSE/MAE)和剪枝防止过拟合。scikit-learn库提供DecisionTreeClassifier和DecisionTreeRegressor实现,支持参数调优(如max_depth、min_samples_split)和可视化。决策树优点是解释性强、无需特征缩放,但易过拟合且不稳定,适用于结构化数据。
2025-10-22 16:47:00
960
原创 【无标题】
摘要 本文以Kaggle房价预测数据集为例,系统讲解特征工程全流程,涵盖数据探索、清洗、转换、构建与选择五大环节。通过分析数据分布、处理缺失值/异常值(如KNN填充、IQR剔除)、优化特征表达(对数转换、目标编码)、构建业务相关特征(如总居住面积、房龄),并基于随机森林筛选Top10核心特征,最终使线性回归模型R²从0.65提升至0.82。文章强调特征工程需结合数据特点与业务逻辑,灵活选用方法,并以模型性能为最终验证标准。适合机器学习初学者通过实战掌握特征工程的核心心法。
2025-10-19 14:59:18
798
原创 Python Web 开发:从框架到实战案例
本文系统介绍了Python Web开发的三大主流框架及其适用场景:Django全栈式框架适合中大型项目,Flask轻量灵活适合小型应用,FastAPI则专为高性能API设计。通过博客系统、任务管理工具和TODO API三个实战案例,详细展示了各框架的核心功能实现过程。文章还梳理了Web开发的通用组件和全流程实践,包括数据库交互、路由视图、模板引擎等核心模块,以及从环境搭建到部署运维的完整开发链路。最后为不同阶段的学习者提供了清晰的学习路径建议,帮助开发者快速掌握Python Web开发的核心技能。
2025-10-18 12:00:00
1095
原创 Python 分类模型评估:从理论到实战(以信用卡欺诈检测为例)
本文针对机器学习分类任务中的模型评估问题,重点探讨了数据不平衡场景下的评估策略。通过信用卡欺诈检测案例,详细解析了评估指标的选择逻辑:准确率在不平衡数据中会失效,应优先关注召回率、精确率和AUC值。文章演示了Python实现流程,包括数据生成、模型训练、指标计算和可视化分析,并强调阈值调整对业务适配的重要性。核心结论指出评估应匹配业务需求,如欺诈检测需侧重召回率,同时通过加权处理和数据可视化提升模型效果。最终表明,分类模型评估的关键在于指标与业务目标的精准对应,而非单纯追求数值高低。
2025-10-17 11:02:43
764
原创 Debug 大作战:奇葩报错诊疗所
程序员常会遭遇各类奇葩报错,它们往往隐藏于逻辑漏洞、环境差异或第三方依赖中,造成大量调试时间浪费。本文总结四类典型问题:1)语法正确但逻辑错误(如if条件中的赋值错误);2)环境依赖问题(如生产环境缺失依赖包);3)跨平台兼容性问题(如不同系统的换行符差异);4)第三方库的版本兼容问题。针对这些问题,提出系统化Debug四步法:精准定位报错源、善用调试工具、高级搜索技巧、假设验证排查。同时强调预防性编程的重要性,包括静态类型检查、单元测试覆盖边界条件,以及团队统一开发环境等规范。文章指出,Debug过程是宝
2025-10-15 11:46:42
973
原创 逻辑回归实战:泰坦尼克号生存预测
本文介绍了逻辑回归的基本概念及其在分类问题中的应用。逻辑回归通过Sigmoid函数将线性回归输出映射为概率值,适用于二分类问题。文章详细讲解了逻辑回归的数学原理(包括Sigmoid函数、决策边界和损失函数),并通过泰坦尼克号生存预测案例展示了Python实现流程,涵盖数据探索、预处理、模型训练与评估等环节。案例中模型准确率达79.89%,并分析了特征重要性。文章还总结了逻辑回归的优缺点(如解释性强但只能处理线性关系)及其在金融、医疗等领域的应用场景。逻辑回归因其简单高效的特点,是分类问题的实用算法选择。
2025-10-15 11:02:12
1134
原创 线性回归入门:用 Python 从零实现简单预测模型
本文介绍了机器学习中最基础的线性回归算法及其Python实现。通过"学习时间与考试成绩"的实际案例,详细讲解了线性回归的原理(y=wx+b)、最小二乘法优化目标,并完整演示了使用scikit-learn库实现模型训练、参数获取、可视化效果和预测的全过程。文章包含从数据准备到模型评估的完整代码,适合初学者快速入门。线性回归虽简单但应用广泛,可用于房价预测、销量分析等多种场景,是理解更复杂算法的重要基础。
2025-10-12 20:38:49
800
原创 Python爬虫实战:腾讯控股2024年资产负债分析
本摘要介绍了一个通过Python爬虫分析腾讯控股财务数据的项目。项目从雪球财经获取2023-2024年资产负债数据,重点分析负债结构安全性、资产质量和财务趋势。使用requests和BeautifulSoup实现爬虫,通过文本特征匹配提取关键指标,并采用数据校验确保准确性。可视化分析显示:腾讯负债结构优化,非流动负债减少6.1%;现金覆盖率22.7%,短期偿债能力稳健;但需关注流动负债增长12.7%和美元借款占比58.5%的汇率风险。项目采用合规数据源,建议结合官方年报进行更完整分析。
2025-10-11 19:39:51
1394
原创 儿童玩具电商详情页 A/B 测试:从业务落地到 Python 数据分析全流程
本文通过儿童玩具电商详情页案例,完整展示了A/B测试从设计到落地的全流程。针对点击转化率低(2.5%)的问题,实验组采用场景化主图、双位置购买按钮和突出比价策略。使用Python进行30天数据模拟和分析,结果显示实验组CTR提升26.4%至3.16%,停留时长增加45.4%,月增收达3.2万元。通过卡方检验和t检验验证了结果的显著性(p<0.05),并提供了可复用的代码模板。项目成功实现数据驱动的优化决策,为后续其他类目测试提供了标准化流程。
2025-10-11 19:29:43
1104
原创 从零开始学 NumPy:基础操作与性能优势实战
NumPy是Python科学计算的核心库,提供高效的多维数组对象ndarray和丰富的数值计算功能。本文通过实战代码系统讲解NumPy基础:1)7种数组创建方法;2)灵活的索引切片操作;3)数组属性与维度重塑;4)常用数学函数;5)性能对比显示NumPy比原生Python快10倍以上。NumPy的向量化操作和C语言底层实现使其成为数据分析、机器学习等领域的基础工具,掌握其核心功能可为后续学习奠定坚实基础。
2025-09-26 17:31:02
750
原创 Python 数据存储:从基础到进阶的完整指南
本文系统梳理了Python生态中主流的数据存储方案,涵盖基础文件存储和专业数据库两大类别。基础存储部分介绍了文本文件、CSV、JSON和Excel的适用场景及操作方法;数据库部分详细讲解了关系型数据库(SQLite、MySQL)与非关系型数据库(MongoDB、Redis)的实践应用。文章特别强调了pandas+SQLAlchemy批量写入的高效方案,并提供了ORM框架、数据序列化等进阶技术。最后给出按场景选型的策略矩阵,建议根据数据结构、量级和访问特征选择存储方式,兼顾性能与安全性需求。
2025-09-24 12:55:56
804
原创 Python Selenium 核心技巧与实战:从基础操作到极验滑动验证码破解
本文系统讲解了Selenium四大核心技巧在Web自动化测试中的应用,重点聚焦极验滑动验证码破解方案。主要内容包括:1. 四大核心技巧详解:显式等待实现精准元素定位、隐式等待作为全局兜底、动作链模拟人类复杂交互、截图留存操作证据;2. 实战案例:通过集成OpenCV图像处理技术,实现验证码缺口识别与拟人化滑动轨迹生成;3. 完整解决方案:从触发验证到结果验证的全流程自动化实现,包含关键代码解析与优化建议。文章强调技术应合规使用,仅限学习目的,并提供了常见问题解决方案。掌握这些技巧不仅能破解验证码,还可应用于
2025-09-20 15:04:32
768
1
原创 Selenium 浏览器自动化完全指南:从环境搭建到实战应用
本文介绍了Selenium浏览器自动化工具的基本使用方法。从环境搭建(Python+Selenium+浏览器驱动)入手,详细讲解了元素定位、页面操作、多窗口管理等核心功能,并通过百度搜索、豆瓣电影等实战案例进行演示。文章重点强调了驱动版本匹配、显式等待等关键技巧,并提供了常见问题的解决方案。Selenium能有效自动化重复网页操作,适用于数据采集、测试等场景,帮助用户大幅提升工作效率。
2025-09-18 19:26:34
976
原创 Python 爬虫从入门到进阶:XPath 解析与实战案例(豆瓣 Top250+4399 登录抓取)
本文介绍了Python爬虫技术,从入门到进阶涵盖了XPath解析和两个实战案例(豆瓣Top250和4399登录抓取)。主要内容包括:1. 爬虫基础工具与XPath解析技术,重点讲解元素定位和属性提取;2. 豆瓣Top250爬取案例,实现分页爬取、数据解析和存储;3. 4399登录抓取案例,学习表单提交、会话保持和权限数据获取;4. 反爬规避技巧和合规建议。文章通过具体代码示例,帮助读者掌握从公开数据到登录权限数据的完整爬取流程,并提供了安全存储、异常处理等实用技巧,最后还指出了爬虫技术的进阶方向。
2025-09-17 17:51:10
2627
原创 基于 Python + JSONPath 爬取动态网页数据实战:腾讯招聘与汉堡王中国案例解析
本文介绍了使用Python+JSONPath技术爬取腾讯招聘和汉堡王官网动态数据的实战案例。通过分析AJAX请求,直接获取后端JSON数据,避免了HTML解析的复杂性。文章详细讲解了环境搭建、接口抓包定位、JSONPath表达式编写等关键步骤,并提供了完整的代码实现。案例对比显示,JSONPath在解析多层嵌套JSON时具有显著优势,但同时也存在学习成本高、依赖接口稳定性等不足。最后提出了合规爬取建议和优化方向,指出该技术组合特别适合处理复杂嵌套的JSON数据场景,建议新手从简单接口逐步提升爬虫能力。
2025-09-15 17:20:15
1257
原创 Python爬虫从入门到精通
本文介绍了Python爬虫的基础知识和实践案例。主要内容包括:1.爬虫基础概念及应用场景;2.必备库与环境配置(如requests、BeautifulSoup、Selenium等);3.静态网页爬取案例(豆瓣电影Top250);4.动态网页处理方案(京东商品爬取);5.反爬策略(请求头设置、代理IP、Cookies处理);6.合法性规范(遵守robots协议等)。文章通过完整代码示例展示了从基础到进阶的爬虫技术实现,特别针对京东等强制登录网站提供了Cookie复用方案。适合Python爬虫入门学习者参考实践
2025-09-11 12:00:00
1608
原创 Python异常处理终极指南+彩蛋
本文全面介绍了Python异常处理机制,包括try-except结构的基本用法、捕获多种异常的方法、else和finally子句的应用,以及如何通过raise语句主动抛出异常和自定义业务异常。文章结合实战案例演示了文件操作和网络连接的异常处理技巧,并分享了最佳实践,如捕获具体异常、合理清理资源等。最后还提供了一个百度图片抓取的实战代码示例,展示异常处理在实际项目中的应用。通过系统学习异常处理,可以编写出更健壮、可靠的Python程序。
2025-09-10 18:17:18
909
原创 Python函数封装技巧:高效代码复用
本文介绍了Python函数封装的核心概念与实践方法。主要内容包括:1. 函数封装基础:讲解函数定义、参数传递、返回值和使用文档字符串的基本方法;2. 典型应用案例:展示变量交换、百度/搜狗无效链接修复、图片爬虫封装、流程控制等实用场景;3. 代码优化技巧:强调单一职责原则、输入验证、异常处理和模块化设计。通过多个具体示例(如闰年判断、99乘法表、石头剪刀布游戏等),演示如何将代码逻辑封装为可复用的函数模块,提高代码的可读性和维护性。文章还提供了错误处理、参数校验和扩展性设计等进阶技巧,适合Python初学者
2025-09-05 16:33:25
1901
原创 Python流程控制:从条件到循环一网打尽+彩蛋
Python流程控制基础摘要:本文系统介绍了Python中的条件判断和循环结构,包括if-elif-else条件语句、for/while循环以及循环控制语句break/continue。详细讲解了条件表达式、range()函数、嵌套结构等核心概念,并通过石头剪刀布游戏实例演示了流程控制的实际应用。这些基础结构是构建Python程序逻辑的核心要素,能实现条件判断、重复执行和流程控制等基本编程功能,为开发复杂程序奠定基础。
2025-08-30 12:00:00
1094
原创 Python集合与字典操作全解析+彩蛋
本文详细介绍了Python中集合(Set)和字典(Dictionary)的基本操作,以及百度图片URL爬虫的实现方法。集合部分涵盖创建、添加、删除、关系判断和运算操作;字典部分包含创建、访问、修改、删除等操作。百度图片爬虫部分提供了两种实现方案:基础版通过API接口爬取,效率高;进阶版使用Selenium模拟浏览器操作,适合API失效时使用。文中还包含反爬优化策略、法律风险提示以及常见问题排查方法,为Python数据操作和网络爬虫提供了全面的实践指南。
2025-08-28 20:18:36
1763
原创 Python字符串格式化输出技巧详解
本文系统介绍了Python字符串操作的五大核心技能:1. 字符串格式化(%格式化、str.format()、推荐f-string),通过学生成绩表、商品价格表等案例演示不同场景的应用;2. 字符串编码(UTF-8与GBK转换),重点讲解中文文件读写避免乱码的方法;3. 字符串转义,处理特殊字符和文件路径;4. 字符串逻辑运算,实现用户输入校验和敏感词过滤;5. 高效字符串拼接,对比+与join()的性能差异。文章通过15个实战案例,覆盖了日常开发中最常见的字符串处理需求,强调在实际应用中要根据场景选择最优方
2025-08-26 11:18:12
1682
原创 Python 修复无效链接:从原理到实战
本文针对数据采集中常见的无效链接问题,深入分析其本质是编码格式与解析规则不匹配。通过解析HTML转义和URL编码两种核心冲突类型,提出覆盖全场景的Python分层解码方案:先处理HTML转义,再解码单次/双重URL编码。提供了通用修复函数和基于图片魔法数字的验证方法,并以百度、搜狗等真实链接为例,测试了5类典型无效链接场景的修复效果。该方案具有强通用性,可应用于电商、新闻等多领域链接处理,能显著提升链接修复效率和准确性。最后给出了防盗链适配、域名选择等实战避坑指南。
2025-08-21 20:54:09
1166
原创 Python变量交换:两种方法全解析
Python变量交换方法总结:1. 经典三行法(临时变量):通过temp变量暂存值,适合初学者理解原理,跨语言通用。2. Python专属一行法(a,b=b,a):利用元组解包特性,简洁高效,是Python推荐写法。3. 多变量交换扩展:可通过元组解包实现(如x,y,z=z,x,y)。实际开发中优先使用Python一行法,代码更简洁。两种方法执行效率相同,临时变量法更适用于复杂数据结构或需要明确交换逻辑的场景。
2025-08-18 21:30:50
937
原创 MATLAB问题一:假设一只股票:现在的市场价格为50元,年化无风险利率是0.1,年化收益率的标准差为0.4。有一个以该股票为标的资产的欧式看涨期权,执行期限为T = 5/12年,执行价格为52元,试
fprintf('期权价格区间为 [%.4f, %.4f]\n', lower, upper);结果:期权价格区间为 [0.0000, 3.0199]sigma = 0.4;% 年化收益率的标准差。N = 10000;
2023-12-08 21:48:54
683
原创 统计MOOC证书
本题要求编写程序,输入N个学生的MOOC成绩,统计优秀、合格证书的数量,以及没有获得证书的数量。学生修读程序设计MOOC,85分及以上获得优秀证书,不到85分但是60分及以上获得合格证书,不到60分则没有证书。
2023-01-15 21:32:52
489
机器学习基于线性回归的连续值预测模型:原理、实现与多领域应用系统解析
2025-10-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅