数据分析实战教程:从思维到落地
文章平均质量分 92
70asunflower
坚持以第一性原理观察世界
相信长期主义 价值投资信徒
AI&compute
正在进化的 Builder,寻找生活的无限可能
深圳 · Grad@SUSTech
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
A2 如何向AI描述需求(提示词模板库)
A3 常见问题与解决思路 —— 数据分析中经常遇到的坑和相应的解决方法。原创 2026-05-13 14:47:34 · 86 阅读 · 0 评论 -
A1 学习速查表
A2 如何向AI描述需求(提示词模板库)—— 学会用自然语言让AI帮你完成数据分析任务。原创 2026-05-13 14:42:47 · 151 阅读 · 0 评论 -
8.3 常用预测方法
字母全称含义ARAutoregressive(自回归)用过去值预测当前值IIntegrated(差分)让数据变平稳MAMoving Average(移动平均)用过去误差预测当前值方法一句话什么时候用移动平均最近K期的平均平稳,无趋势无季节指数平滑近期权重大平稳,快速响应Holt水平+趋势有趋势无季节水平+趋势+季节有趋势有季节。原创 2026-05-13 14:20:50 · 278 阅读 · 0 评论 -
8.2 时间序列的可视化与分解
自相关:一个时间序列与其自身过去值的相关性。滞后含义业务问题滞后1今天与昨天的关系“昨天卖得好,今天也会好吗?滞后7今天与上周同一天的关系“上周五卖得好,这周五呢?滞后30今天与上月同一天的关系“是否有月度周期?某连锁超市提供2019-2023年每周的销售额数据,需要进行时间序列分析。方法作用何时用折线图看整体趋势、转折点第一步,必做多序列对比对比不同类别走势需要对比时季节性子图发现周期性规律怀疑有季节性时箱线图看分布和异常需要量化季月差异时。原创 2026-05-13 14:20:28 · 345 阅读 · 0 评论 -
5.3 相关性分析
相关性描述的是两个变量之间“一起变化”的关系——当一个变量变化时,另一个变量是否也倾向于按某种规律变化?三个核心问题问题含义有没有关系?两个变量之间是否存在关联?什么方向?是同向变化还是反向变化?关系多强?关联的程度有多紧密?概念一句话正相关你升我也升,你降我也降负相关你升我降,你降我升相关系数rr=0.9强相关,r=0.1弱相关,负号只表示方向相关≠因果相关性只说明有关系,不代表谁导致谁。原创 2026-05-13 14:20:14 · 306 阅读 · 0 评论 -
5.2 分组对比分析
groupby是“分组聚合”的操作——先按某个字段分组,然后对每组计算统计量(如平均值、总和、计数)。三步思维第1步:拆分(Split) → 按某个维度将数据分成若干组第2步:应用(Apply) → 对每组应用一个函数(计算均值、求和等)第3步:合并(Combine)→ 将每组的计算结果合并成一个新表格组间差异是指不同组之间在某个指标上的差别。发现组间差异是分组分析的核心产出——差异就是问题,问题就是机会。为什么要分组:单独看一个数字没有意义,对比才能产生洞察分组的本质。原创 2026-05-13 14:19:58 · 338 阅读 · 0 评论 -
5.1 描述性统计
描述性统计是用几个关键数字概括和描述一个数据集的整体特征。问题对应指标“典型值是多少?均值、中位数、众数“数据分散还是集中?标准差、极差、方差“数据分布在什么范围?最小值、最大值、分位数“数据是对称还是偏斜?偏度指标一句话业务含义均值“平均每个”数据集中趋势(对极端值敏感)中位数“一半以上”典型值(抗极端值)标准差“波动多大”稳定性、风险、差异程度分位数“排第几”位置、排名、分布形状。原创 2026-05-13 14:19:44 · 376 阅读 · 0 评论 -
4.5 实战案例:二手车交易价格预测数据清洗
原始数据↓1. 数据探索(head/info/describe/value_counts)↓2. 识别问题(缺失/异常/类型/无效列)↓3. 执行清洗- 缺失值:填充或删除- 异常值:删除或替换- 无效列:删除- 类型转换:日期、数字、文本↓4. 特征工程(可选)↓5. 验证与输出↓干净数据 → 可用于建模。原创 2026-05-13 14:19:28 · 354 阅读 · 0 评论 -
8.1 时间序列的特殊之处
时间序列是按时间顺序排列的一系列数据点。时间序列分析的核心是利用过去的信息预测未来。对比维度普通数据(横截面)时间序列数据数据顺序可随机打乱顺序固定,不可打乱数据独立性样本之间相互独立样本之间相关(今天依赖昨天)预测依据其他特征自己的过去值随机划分✅ 可以❌ 不可以自相关:一个时间序列与其自身过去值的相关性——昨天与今天相关,今天与明天相关。概念含义例子自相关今天和昨天的关系昨天卖出100件,今天大概率也接近100件滞后间隔多少时间滞后1天(昨天)、滞后7天(上周同一天)原创 2026-05-12 11:07:45 · 22 阅读 · 0 评论 -
7.5特征工程进阶
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。类比做菜步骤机器学习做菜原料原始数据食材特征工程洗菜、切菜、调味处理食材建模烹饪炒菜没有好的特征,再好的模型也白搭。特征工程:将原始数据转化为更能代表问题本质的输入特征的过程。阶段内容目的特征提取从原始数据中提取信息获取基础特征特征构造创造新特征提升模型表达能力特征选择筛选有用的特征减少噪音和冗余降维压缩特征维度加速训练、可视化“特征决定了模型效果的上限。原创 2026-05-12 11:03:36 · 135 阅读 · 0 评论 -
7.5 模型调参与优化
核心思想:穷举所有参数组合,找出最佳组合——设定参数候选值,尝试所有组合,选交叉验证分数最高的。例子参数候选值n_estimators(树的数量)max_depth(最大深度)min_samples_split(最小分裂样本数)[2, 5, 10]总组合数= 3 × 3 × 3 = 27种。概念一句话欠拟合训练差,验证差 → 模型太简单过拟合训练好,验证差 → 模型太复杂交叉验证K次训练取平均,评估更稳定网格搜索穷举所有参数组合随机搜索随机采样参数组合学习曲线诊断欠拟合/过拟合的工具。原创 2026-05-12 10:58:49 · 149 阅读 · 0 评论 -
7.4 聚类 —— 发现自然分组
聚类是一种无监督学习算法,用于发现数据中的自然分组——把相似的数据点归为一组,不同组之间的差异尽可能大。与监督学习的核心区别:聚类没有“正确答案”,模型自己发现数据中的结构。核心思想:从每个点自成一类开始,不断合并最近的两类,形成一棵“树”。输出形式:树状图(Dendrogram)│ ├─────┐┌─┼─┐│D│E│└─┴─┘优点:不需要预先指定K,可以从树状图“切”出想要的K。缺点:计算慢,不适合大数据。二手车平台希望了解不同类型的买家和卖家,以便制定差异化的运营策略。第1步:明确业务问题↓。原创 2026-05-12 10:53:58 · 156 阅读 · 0 评论 -
7.3 分类 —— 预测一个类别
分类是一种监督学习算法,用于预测数据属于哪个类别。对比维度回归分类预测输出数字(连续)标签(离散)输出形式“65000元”“会流失/不会流失”问题类型“是多少?“是哪一类?对比维度逻辑回归决策树随机森林核心思想计算概率层层切分多棵树投票可解释性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐预测精度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐过拟合风险低高低非线性处理否是是类别不平衡一般差一般(可用class_weight)电信运营商希望预测哪些客户可能会流失,以便提前干预。项目。原创 2026-05-12 10:51:59 · 354 阅读 · 0 评论 -
7.2 回归 —— 预测一个数字
回归是一种监督学习算法,用于预测连续数值。对比维度回归分类预测输出数字(有大小、可比较)类别(标签、无大小)例子价格、温度、销量是否流失、猫/狗输出形式“3500元”“是” 或 “否”线性指的是两个变量之间的关系可以用一条直线来描述。关系类型特征例子线性图中点大致在一条直线附近车龄 ↑ → 价格 ↓(大致均匀下降)非线性图中点形成曲线学习时间与成绩(增长先快后慢)对比维度线性回归决策树随机森林核心思想找一条直线层层切分数据多棵树投票平均可解释性⭐⭐⭐⭐⭐。原创 2026-05-12 10:45:39 · 535 阅读 · 0 评论 -
6.2 各图表深度解读
总览:这张图在讲什么?识别模式:有什么趋势、差异、异常?量化:差距多大?趋势多强?业务解读:这意味着什么?原创 2026-05-12 10:25:00 · 338 阅读 · 0 评论 -
6.1 图表选择指南
原则说明目的驱动先想清楚要表达什么,再选图表简洁至上去掉一切非必要元素(3D、过多颜色、网格线)读者导向你的读者能看懂这张图吗?准确第一不歪曲数据(Y轴从0开始、不用截断的轴)原创 2026-05-12 10:18:45 · 552 阅读 · 0 评论 -
5.5 EDA实战:二手车价格预测分析
排名特征与price的相关性方向1车龄~ -0.61强负相关2v_3+0.67强正相关3v_12+0.65强正相关4里程-0.52中等负相关5自动挡正相关中等6功率+0.38弱正相关数据加载↓概览(shape、info、head)↓目标变量分析(分布、偏度、异常)↓单变量分析(数字特征 + 类别特征)↓多变量分析(相关性、分组对比、交叉分析)↓核心发现提炼 → 业务建议 + 建模建议。原创 2026-05-12 09:51:56 · 380 阅读 · 0 评论 -
5.4 分布分析
数据分布描述的是一个数据集中,不同数值出现的“频率”或“密度”——哪些数值出现得多,哪些出现得少。通俗理解:把数据画成直方图,你看到的“形状”就是分布。当数据分布不对称时,称为偏态分布。类型别名特征尾部朝向正偏态右偏均值 > 中位数 > 众数右侧有一条长尾负偏态左偏均值 < 中位数 < 众数左侧有一条长尾概念一句话分布数据在不同数值上的频率分布正态分布钟形、对称、中间多两边少正偏(右偏)右侧有长尾,均值 > 中位数负偏(左偏)左侧有长尾,均值 < 中位数。原创 2026-05-12 09:42:12 · 387 阅读 · 0 评论 -
4.3 异常值处理
异常值(Outlier),简单说就是“与其他数据明显不同、偏离大多数观测值的数值”。表现形式举例问题过大房价1亿元,其他都在200-500万可能是豪宅,也可能是数据错误过小年龄-5岁明显不可能不该为0的为0车价0元可能是免费赠送,也可能是数据错误不在合理范围身高2.5米虽然罕见但可能真实存在(篮球运动员)什么是异常值:与其他数据明显不同的数值怎么发现业务常识(最优先)描述性统计(describe)可视化(箱线图)IQR方法(通用)Z-score方法(正态分布数据)原创 2026-05-11 12:57:22 · 177 阅读 · 0 评论 -
4.2 重复值处理
重复值,简单说就是“同一条数据出现了多次”。类型定义举例完全重复所有列的值都完全相同两行数据一模一样部分重复关键列的值相同,其他列可能不同同一个订单号出现两次,但收货地址不同什么是重复值:同一条数据出现多次,分为完全重复和部分重复怎么发现、按关键列检查处理方法保留一条:完全重复,或部分重复但信息一致全部删除:部分重复且有冲突,无法判断业务判断:最关键的一步——问自己“这条记录在真实业务中应该唯一吗?原创 2026-05-11 12:45:18 · 135 阅读 · 0 评论 -
数据分析实战教程:从思维到落地
学会像数据分析师一样思考,知道有什么工具、能解决什么问题、如何向AI描述需求。原创 2026-05-11 10:11:01 · 443 阅读 · 0 评论
分享