数据分析
文章平均质量分 56
川涂
银鞍照白马,飒沓如流星
展开
-
Python绘图 - Matplotlib(1) - 基本图表展示
matplotlib是python常用的绘图包,这里介绍基本的折线图、散点图、直方图、柱状图和饼图的用法。原创 2024-09-04 23:56:02 · 314 阅读 · 0 评论 -
数据库分层随机抽样
现在要对目标关系型数据库的所有中的所有数据进行抽样,为了保证样本的分布均匀,采用分层随机抽样的方式。把目标表的,并,所以最终的样本集x = nN,并且里面不存在重复数据其中已知:存在百万,甚至千万级以上的数据表存在主键字段不为id的情况存在主键不连续的情况。原创 2024-02-22 16:46:00 · 305 阅读 · 0 评论 -
描述性统计分析
统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。 研究数据收集、处理和描述的统计学方法。 总体规模、对比关系、集中趋势、离散程度、偏态、峰态等 比如:现在要分析所有CDA持证人的收入情况。那我们收集现在持证人的收入情况,可以通过平均值,中位数等各种指标来看到。 研究如何利用样本数据来推断总体特征的统计学方法 估计、假设检验、列联分析、方差分析、相关分析、回归分析等 比如:现在需要分析中国人的收入情况。原创 2023-07-17 09:49:42 · 487 阅读 · 1 评论 -
Pandas(1) - 常用操作
通过行标签索引行数据例:loc[n]表示索引的是第n行(index 是整数)loc[‘d’]表示索引的是第’d’行(index 是字符)有行索引可以没有字段取值,但有字段取值前必须得有行索引,而且行索引只能为标签索引形式来取,不能按切片形式来取。单取切片形式可以,只是索引为左闭右闭。原创 2023-07-14 17:01:01 · 132 阅读 · 1 评论 -
Pandas(2) - 时间筛选
【代码】pandas(2) - 时间筛选。原创 2023-07-14 17:04:06 · 1824 阅读 · 1 评论