数据分析
文章平均质量分 75
李昊哲小课
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas数据分析 - 第十三章:实战案例综合
本章通过电商数据分析实战项目,系统讲解数据分析全流程。项目包含5个关键阶段:数据获取(模拟5,000商品、10万用户和50万订单数据)、数据清洗(处理缺失值和异常值)、数据分析(销售趋势和用户行为分析)、数据可视化(构建综合仪表板)以及分析报告撰写(提炼商业洞察)。案例采用真实电商场景,涵盖从数据预处理到结论呈现的完整链路,帮助读者掌握项目组织、代码规范以及解决复杂业务问题的能力。原创 2026-04-08 06:03:28 · 405 阅读 · 0 评论 -
Pandas数据分析 - 第十二章:性能优化
📋 文章摘要 本文介绍了Pandas性能优化的核心技巧,重点讲解了向量化操作的优势。通过电商订单数据分析案例,对比了循环与向量化方法的性能差异: 循环 vs 向量化:在10,000条数据上,np.where向量化方法比循环快108倍(0.0015秒 vs 0.1671秒) apply vs pd.cut:分箱操作使用pd.cut比apply快1.5倍 字符串处理:向量化字符串拼接显著优于循环方式 关键优化原则:避免Python循环,优先使用NumPy/Pandas内置的向量化操作,可提升性能100-100原创 2026-04-08 06:00:49 · 431 阅读 · 0 评论 -
Pandas数据分析 - 第十一章:数据可视化
本章主要介绍了使用Pandas和Matplotlib进行数据可视化的方法。内容涵盖Pandas内置绘图功能(折线图、柱状图等)、Matplotlib基础绘图、图表美化技巧、多子图布局以及时间序列可视化。通过销售数据分析实战案例,演示了如何创建专业的数据图表,包括月度销售趋势图、产品类别销售额柱状图等可视化效果。学习目标包括掌握常用图表绘制方法、图表样式优化以及图表导出技巧,帮助读者提升数据分析和报告展示能力。原创 2026-04-08 05:58:56 · 662 阅读 · 0 评论 -
Pandas数据分析 - 第十章:时间序列处理
本章介绍了Pandas中处理时间序列数据的关键方法,包括时间索引创建、时间选择与切片、重采样、移动窗口计算和时间偏移操作等。通过股票交易、销售数据和网站访问三个实际案例(日频、小时频和分钟频数据),展示了时间序列处理在金融、零售和互联网领域的应用场景。主要内容涵盖DatetimeIndex操作、resample重采样、rolling移动窗口计算等核心功能,帮助读者掌握处理各种时间序列数据的实用技能。原创 2026-04-07 21:49:53 · 51 阅读 · 0 评论 -
Pandas数据分析 - 第九章:分组聚合操作
本章介绍了Pandas中强大的分组聚合功能,包括groupby()数据分组、常用聚合函数(sum/mean/count等)、agg()多列聚合、transform()组内变换、apply()自定义操作和filter()分组过滤。通过电商销售数据分析案例(订单表、员工表、库存表)展示了实际应用场景,帮助读者掌握高效的数据分组统计、组内变换和复杂分析技巧。原创 2026-04-07 21:46:51 · 164 阅读 · 0 评论 -
Pandas数据分析 - 第八章:数据重塑
本章介绍了Pandas中数据重塑的核心技术,包括pivot()(长表转宽表)、melt()(宽表转长表)、stack()/unstack()(层次化索引操作)等方法,以及pivot_table()高级透视和crosstab()交叉表分析。通过销售数据分析案例,展示了如何在实际业务中灵活转换数据格式,满足不同的分析和报表需求。学习目标包括掌握数据格式转换技巧,并理解这些方法在销售记录、员工绩效、库存管理和问卷调查等场景中的应用。原创 2026-04-07 21:38:01 · 171 阅读 · 0 评论 -
Pandas数据分析 - 第七章:数据合并与连接
本章介绍Pandas数据合并与连接的核心技术,包括merge()、join()和concat()三种主要方法,以及内连接、外连接等不同连接方式。通过电商案例(客户表、订单表、商品表等5张数据表)演示多表关联分析,帮助读者掌握实际业务场景中的数据整合技巧,处理重复列名和索引问题。学习目标涵盖数据库风格表连接、索引连接、数据拼接等关键技能。原创 2026-04-07 21:35:38 · 161 阅读 · 0 评论 -
Pandas数据分析 - 第五章:数据选择与过滤
本章介绍了Pandas中数据选择与过滤的核心方法,包括基于标签的loc、基于位置的iloc、布尔索引条件筛选、query()查询方法以及便捷筛选函数。通过电商订单数据示例,展示了如何提取特定行/列数据、组合多条件筛选、使用isin()和between()等高级查询技巧。这些方法能帮助用户灵活地从DataFrame中获取所需数据,是数据分析的基础操作技能。原创 2026-04-07 20:51:25 · 329 阅读 · 0 评论 -
Pandas数据分析 - 第四章:数据读取与保存
本章详细介绍了Pandas中各种数据格式的读写操作,重点包括CSV、Excel、JSON和SQL。通过实际案例演示了数据的导入导出方法,如使用read_csv/to_csv处理CSV文件,read_excel/to_excel操作Excel表格,以及JSON和SQL数据库的交互。内容涵盖常用参数设置、编码处理、大数据分块读取等实用技巧,帮助读者掌握数据工程中的核心读写技能,为后续数据分析奠定基础。原创 2026-04-07 20:24:58 · 353 阅读 · 0 评论 -
Pandas数据分析 - 第三章:DataFrame 对象详解
本章详细讲解Pandas中DataFrame对象的操作技巧,涵盖创建方法、行列操作、索引管理、条件筛选和数据转换等核心功能。通过字典、列表和NumPy数组三种方式创建DataFrame,展示其基本结构组成(行索引、列索引和数据区域)。重点内容包括使用loc/iloc进行数据选择、索引设置与重置、多条件筛选以及apply/applymap数据转换方法。配以可视化知识结构图,帮助系统掌握DataFrame的完整操作体系。原创 2026-04-07 20:19:40 · 368 阅读 · 0 评论 -
Pandas数据分析 - 第二章:Series 对象详解
本文详细介绍了Pandas中Series对象的索引系统和使用方法。主要内容包括: Series索引类型:位置索引(iloc)和标签索引(loc),前者基于整数位置,后者基于自定义标签值 索引访问方式对比: iloc按整数位置访问,支持负索引和切片(左闭右开) loc按标签值访问,切片时包含结束标签(左闭右闭) 示例演示: 创建带自定义索引的Series 使用iloc进行位置索引访问和切片操作 使用loc进行标签索引访问和切片操作 文章强调当索引为整数时直接索引会优先解释为标签索引,建议明确使用.loc[]和原创 2026-04-07 19:34:06 · 436 阅读 · 0 评论 -
Pandas数据分析 - 第一章:Pandas 简介与环境准备
本文是Pandas数据分析库的入门教程第一章,主要内容包括: Pandas简介:介绍Pandas作为Python开源数据分析库的核心功能(数据清洗、转换、分析等)及其优势。 环境准备: 导入Pandas库(约定别名为pd) 版本检查方法 配合NumPy使用 核心数据结构: Series:一维带标签数组,可通过列表/字典创建,支持自定义索引 DataFrame:二维表格结构,由多个Series组成 基础操作: Series的创建与属性访问(values、index等) 数据索引与切片 基本统计计算(均值、最值原创 2026-04-07 19:25:57 · 960 阅读 · 0 评论 -
Python办公自动化教程 - 第7章 综合实战案例 - 企业销售管理系统
本文介绍了一个企业销售管理系统的Excel综合实战案例,包含7个关键部分: 项目目标:通过实战掌握项目规划、模块化开发和知识综合运用能力 实战价值:检验学习成果、培养工程思维、提升问题解决能力 系统功能:包含员工信息管理、销售数据记录、业绩统计分析和可视化报表 架构设计:采用模块化结构,分为基础数据、业务数据和展示层 开发流程:从创建工作簿到最终保存文件,包含7个标准步骤 技术要点:综合运用工作簿操作、样式设计、公式计算、图表制作等技能 代码示例:提供了Python实现的核心框架和员工信息表创建方法 该案例原创 2026-04-06 13:42:38 · 170 阅读 · 0 评论 -
Python办公自动化教程 - 第6章 高级应用 - 解锁更多可能性
摘要 本章介绍openpyxl高级功能应用,包括图片插入、超链接、数据验证等。通过实例演示如何在Excel中插入图片并调整大小位置,代码展示了创建Workbook、填充数据、加载图片、设置尺寸和保存文件的完整流程。学习这些高级技巧能提升处理复杂Excel文档的能力,如丰富内容展示、自动化操作和数据验证控制。代码需要Pillow库支持图片处理,最终生成带产品信息和图片的Excel文件。原创 2026-04-06 13:18:17 · 152 阅读 · 0 评论 -
Python办公自动化教程 - 第5章 图表创建 - 让数据可视化
Excel图表创建指南摘要 本章重点讲解了使用Excel创建数据可视化图表的核心技能,主要内容包括: 基础图表创建:详细演示了柱状图、折线图和饼图的制作方法,分别适用于数据对比、趋势分析和占比展示等场景。 图表定制技巧:介绍了如何设置图表标题、图例、坐标轴标签和数据标签,使图表更具可读性和专业性。 组合图表应用:通过销售数据案例,展示了如何将多种图表类型组合使用,构建完整的可视化报表。 动态图表实现:讲解了基于公式数据的动态图表创建方法,使图表能随数据变化自动更新。 布局优化要点:包括图表位置调整、大小设置原创 2026-04-06 12:21:26 · 185 阅读 · 0 评论 -
Python办公自动化教程 - 第4章 Excel公式与函数 - 让数据自动计算
Excel公式与函数摘要(148字) 本章系统讲解Excel公式与函数的应用,包含基础运算、统计函数、逻辑判断和查找引用四大核心功能。通过员工工资自动计算系统的实战案例,演示了如何使用SUMIF、IF等函数实现工资条自动生成、社保扣款计算和个税核算。重点介绍了公式系统的自动计算优势,包括减少手工错误、提高效率和数据联动更新。学习后能够掌握:1)基础数学运算;2)常用统计函数;3)条件判断逻辑;4)跨表数据查找。配套Python代码展示了如何用openpyxl创建带公式的工资表,实现应发工资、社保扣款和实发工原创 2026-04-06 11:56:43 · 339 阅读 · 0 评论 -
Python办公自动化教程 - 第3章 工作表进阶操作 - 管理多个表格的技巧
本章介绍Excel工作表进阶操作,重点讲解多工作表管理技巧。主要内容包括:1) 工作表基础操作(创建、删除、重命名、复制);2) 单元格合并方法(横向、纵向及多行列合并);3) 行列操作(插入、删除、调整尺寸);4) 工作表保护设置(密码、权限控制)。通过多部门预算管理实例演示如何创建包含汇总表和部门明细表的工作簿,实现数据分类管理、公式引用和保护敏感数据。示例代码展示了从创建工作簿、设置样式到最终保存文件的完整流程,适用于企业财务预算管理等实际场景。原创 2026-04-06 10:45:11 · 541 阅读 · 0 评论 -
Python办公自动化教程 - 第2章 单元格样式魔法 - 让表格变得美观专业
摘要 本章介绍了Excel单元格样式设置技巧,通过openpyxl库实现专业美观的表格设计。主要内容包括: 样式系统架构:包含字体、填充、边框、对齐等核心组件 样式应用场景:通过销售报表案例演示了标题、表头、数据行和汇总行的差异化样式设置 样式对象详解: 字体(Font):控制字体类型、大小、颜色等 填充(PatternFill):设置单元格背景色和图案 边框(Border):定义单元格边框样式 对齐(Alignment):调整文本对齐方式 实战演练:提供了完整的Python代码示例,展示如何创建具有专业外原创 2026-04-06 09:33:38 · 212 阅读 · 0 评论 -
Python办公自动化教程 - 第1章 openpyxl基础入门 - 第一次用代码操控Excel
本章我们按照以下路径学习:fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;1.2 基本概念1.4 练习1创建Excel1.4 练习2读取Excel1.4 练习3单元格访问1.4 练习4数据类型。原创 2026-04-06 08:58:24 · 668 阅读 · 0 评论 -
Python办公自动化教程 - openpyxl让Excel处理变得轻松
Python办公自动化教程摘要 本教程面向零基础办公人员,无需编程经验,通过Python的openpyxl库实现Excel自动化处理。教程包含8个章节,从环境搭建到实战应用: 环境配置:讲解虚拟环境概念,指导Python安装和openpyxl库配置 基础操作:学习Excel文件读写、单元格操作等核心功能 进阶技巧:涵盖样式设置、多表管理、公式计算和图表生成 实战项目:最终完成企业月度经营分析报告系统 特色亮点: 采用生活化类比解释技术概念 提供详细的安装配置指导 包含环境检查脚本确保学习顺利 从零开始循序渐原创 2026-04-06 08:54:06 · 456 阅读 · 0 评论 -
matplotlib多子图与复杂布局实战
本文介绍了Matplotlib中四种子图布局方法在实际业务分析中的应用。通过四个案例展示了不同布局方式:1)规则网格布局用于产品季度销售对比;2)网格合并布局创建市场分析看板;3)GridSpec实现复杂客户分析;4)subplot_mosaic构建销售仪表盘。每个案例都包含真实业务数据,并演示了共享坐标轴、隐藏刻度、嵌套布局等高级技巧,同时统一处理了中文显示问题。这些方法能有效提升多图表对比分析的可视化效果,满足不同业务场景的需求。原创 2026-03-20 09:05:27 · 648 阅读 · 0 评论 -
matplotlib_tutorial
本文提供了一份完整的Matplotlib可视化教程,涵盖7大类共30多种常用图表类型。教程从基础的成对数据可视化(如折线图、散点图、条形图)开始,逐步深入到统计分布(直方图、箱线图)、网格数据(伪彩色图、等高线图)、3D数据可视化,以及极坐标等特殊坐标系图表。每种图表类型都配有完整的Python代码示例,包含中文支持、样式设置、标签注释等实用技巧。教程采用模块化结构,方便读者快速查找需要的图表实现方法,是数据可视化工作的实用参考手册。原创 2026-03-19 14:38:28 · 467 阅读 · 0 评论 -
国际足球比赛数据集分析报告(1872-2025)
本研究基于Kaggle国际足球比赛数据集,对1872-2025年间51,234场国际男子足球比赛进行系统性分析。研究采用Python技术栈(Pandas、Matplotlib、Seaborn、Pyecharts),通过数据清洗、多维度分析和可视化展示,深入挖掘足球运动发展规律。原创 2026-03-18 12:14:49 · 866 阅读 · 0 评论 -
NumPy轴方向统计在多维数据分析中的应用
本文档通过丰富的生活场景案例,详细展示了NumPy轴方向统计在多维数据分析中的应用。内容涵盖二维数据(如学生成绩、店铺销售、运动员成绩等)和三维数据(如多班级成绩、电商销售、空气质量监测等)的分析方法,展示了如何通过选择不同轴方向(axis=0/1/2)进行灵活的数据统计。文档还总结了轴选择原则、数据分析思路及记忆技巧,帮助读者理解轴的概念并从不同维度分析数据,发现数据背后的规律和 insights。这些案例不仅展示了NumPy在数据分析中的强大功能,也为实际应用提供了可操作的参考方案。原创 2026-03-17 11:25:26 · 250 阅读 · 0 评论 -
NumPy 完整学习笔记
本文是一份面向Numpy的实战速查手册,整合10章教程代码的实际场景案例。内容涵盖数组创建、索引切片、形状操作、广播运算、数学统计、线性代数、随机数生成、文件IO、高级索引和性能优化十大模块。特色在于将每个函数与真实业务场景深度结合,如员工考勤表、股票价格分析、电商用户行为模拟、神经网络前向传播、蒙特卡洛投资风险分析等。采用"表格+代码片段"的简洁形式,既保留函数速查的便利性,又通过丰富的实战案例帮助读者理解应用场景,适合有Python基础的开发者作为日常开发参考和快速查阅工具。原创 2026-03-16 08:02:01 · 504 阅读 · 0 评论 -
NumPy 完全实战教程
本文是一部长达19章的NumPy实战教程,以**真实业务场景**为主线,从超市库存管理、电商数据分析到金融风控、智慧农业等19个领域,系统讲解NumPy核心功能。教程采用**场景驱动**教学法,每章配备完整可运行的Python代码,涵盖数组创建、索引切片、广播机制、线性代数、随机模拟、文件IO、性能优化等全栈技能。特别亮点包括:高频交易系统性能优化、医疗数据仓库处理、量化投资策略回测等高级实战项目,适合数据分析师、算法工程师及Python开发者系统学习,快速掌握科学计算与数据处理能力。原创 2026-03-16 07:33:13 · 542 阅读 · 0 评论 -
python一次性解决任意常见日期字符串 ⇄ 统一格式
下面这段代码一次性解决「任意常见日期字符串 ⇄ 统一格式」的相互转换需求。特点:1. 能解析 30+ 种常见写法,也能把它们再转回任意你想要的格式;2. 输入宽容:空格、中文、斜杠、点号、无零补位都能识别;3. 输出灵活:想输出 datetime 对象、 YYYY-MM-DD 字符串、 MM/DD/YYYY 、 YYYY年M月D日 都行;4. 支持偏移:如 “2 天前”“3 小时后” 也能解析成日期或字符串。原创 2025-08-23 11:31:16 · 353 阅读 · 0 评论 -
销售数据可视化分析项目
使用 Python 进行销售数据的模拟生成、加载、分析和可视化,通过一系列实际需求案例,让学员掌握 Pandas、NumPy、Matplotlib 和 Seaborn 等库的基本使用方法。原创 2025-07-11 17:06:22 · 925 阅读 · 0 评论 -
python 操作 hive
pip install thrift pure-sasl thrift_sasl future pyhive原创 2025-07-01 10:40:11 · 391 阅读 · 0 评论 -
客户消费数据分析
这个程序实现了完整的数据处理流程,包括模拟数据生成、数据保存、数据清洗、数据分析和可视化。原创 2025-06-03 13:23:36 · 1160 阅读 · 0 评论 -
基于文本的情感分析
1. 数据加载与特征转换2. 数据集划分3. 模型训练4. 模型测试5. 输出信息量较大的特征6. 对输入的句子进行情感分析7. 使用SnowNLP进行情感分析8. 主函数原创 2025-04-15 08:39:44 · 3640 阅读 · 0 评论 -
python 多数据源整合
【代码】python 多数据源整合。原创 2025-04-13 09:35:51 · 3160 阅读 · 0 评论 -
pyecharts常用图形
pyecharts 是一个强大的 Python 可视化库,它支持绘制多种类型的图表,以下是一些常见的图表类型原创 2025-04-08 15:53:37 · 4261 阅读 · 0 评论 -
seaborn基本绘图
# 导入绘图库 matplotlib 的 pyplot 模块,用于绘制图形。from matplotlib import pyplot as plt# 导入 pandas 库,用于数据处理和分析。import pandas as pd# 导入 seaborn 库,用于绘图import seaborn as sns原创 2025-04-01 18:00:16 · 5218 阅读 · 0 评论 -
seaborn 完整案例
使用 seaborn 进行数据可视化的完整案例原创 2025-03-31 17:08:30 · 5280 阅读 · 0 评论 -
matplotlib完整案例
Matplotlib 是 Python 中一个流行的绘图库,用于创建各种静态、动态和交互式的图表。本文将通过一系列完整的案例来教授如何使用 Matplotlib 进行数据可视化。原创 2025-03-25 16:34:16 · 5923 阅读 · 0 评论 -
垃圾短信分类
1. 数据加载阶段特别指定手机号为字符串类型,避免解析错误2. 清洗过程中通过 lambda 表达式生成垃圾短信标签,规则可根据需要调整3. 脱敏处理采用部分隐藏的方式保护隐私,同时处理异常情况4. 分词过程包含 URL 替换和停用词过滤,提高文本表示质量5. 模型训练使用 TF-IDF + 多项式贝叶斯组合,适合短文本分类6. 可视化部分展示了数据分布和关键词云,帮助理解数据特征原创 2025-03-25 11:24:55 · 5642 阅读 · 0 评论 -
Matplotlib 中指定本地字体库
在 Matplotlib 中指定本地字体库可以通过以下几种方法实现原创 2025-03-24 14:44:44 · 6552 阅读 · 0 评论 -
关键词提取案例
在电商行业中,用户评论是了解用户需求和产品反馈的重要数据来源。通过分析用户评论,可以提取出用户关注的关键词,从而帮助商家优化产品和服务。本案例将展示如何结合`pandas`数据清洗、`jieba`分词和`scikit-learn`关键词提取技术,处理和分析用户评论数据。原创 2025-03-21 09:32:41 · 6119 阅读 · 0 评论 -
python 正则表达式 re模块 练习
python 正则表达式 re模块 练习原创 2025-03-10 11:17:00 · 6814 阅读 · 0 评论
分享