数据分析
文章平均质量分 93
逆龙泰氽
这个作者很懒,什么都没留下…
展开
-
数据分析【方差分析】四
CCSS案例中提供了2030年4月,以及2030、2031、2032年12月四个时间点的消费者信心监测数据, 现希望分析这四个时间点的消费者信心指数平均水平是否存在差异。什么是方差分析:方差分析是假设检验的一种延续与扩展,主要用于多个总体均值(三组或三组以上均值)是否相等做出假设检验,研究分类型自变量对数值型因变量的影响。各组样本的样本容量不相等时,如果最大的样本标准差与最小的样本标准差之比不超过2,仍可以使用ANOVA。各组样本的样本容量相等时,如果一定程度上违反了方差齐性,仍可以使用ANOVA。原创 2024-05-25 03:42:27 · 764 阅读 · 0 评论 -
数据分析【假设检验】三
某饮料厂在自动流水线上罐装饮料。在正常生产情形下,每瓶饮料的容量(单位:ml)X服从正态分布N(500,102经过一段时间之后,为了检查机器工作是否正常,抽取了9瓶样品,测得它们的平均值为490ml.试问此时自动流水线的工作是否正常?即问是否可以认为每瓶饮料的容量仍是500ml?假定标准差10ml不变。假设检验是统计推断的另一种重要的形式;假设检验问题就是研究如何根据样本来检验抽样前所作出的假设;假设检验的要素1、假设零假设(H0假设)– 没有任何事情发生备择假设(H1假设)原创 2024-05-18 00:05:53 · 1038 阅读 · 0 评论 -
数据分析【统计管理】二
以上代码从侧面验证了统计学的一个重要定理,中心极限定理,中心极限定理支出,如果样本足够大,则变量均值的抽样分布将近似于正态分布,而与该变量在总体中的分布无关。原创 2024-04-27 15:51:19 · 622 阅读 · 2 评论 -
数据分析【统计管理】一
什么是统计学: 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,升值预测对象未来的一门综合性学科。统计思维:用相对简单的特征来尽量准确地刻画复杂的正式情况,并且允许对不确定性进行量化。应用范围广泛:统计学在几乎所有领域里都发挥着重要左右,比如经济学,医学,商业,心理学,计算机。什么是描述统计描述统计是研究1、如何取得反映客观现象的数据(数据的收集)2、通过图表形式对数据进行加工处理和可视化3、通过概括与分析得出反映客观现象的规律性数量特征数据的有效性和可靠性。原创 2024-04-22 00:25:46 · 766 阅读 · 0 评论 -
数据分析用例一:足球运动员数据分析
df.head()# 设置默认显示的行数# 设置默认显示的列数# 查看数据# 查看数据的形状# df.shape# 查看数据的前5行# 查看数据的后5行# 随机查看数据的5行数据详细字段名备注Name姓名国籍国家队位置国家队号码Club所在俱乐部所在俱乐部位置Club_Kit俱乐部号码加入俱乐部时间合同到期时间Rating评分Height身高Weight体重擅长左(右)脚Birth_Date出生日期Age年龄擅长位置Work_Rate。原创 2024-04-17 00:01:48 · 1765 阅读 · 0 评论 -
Pandas的学习和使用四
1、分布式计算:如果单台机器的内存无法满足需求,可以考虑使用分布式计算框架,如 Apache Spark、Dask 等,将数据分布在多台机器上进行处理。可以使用 Pandas 的数据类型转换方法,如 astype() ,将数据类型转换为占用更少内存的类型,例如将浮点数转换为整数,将字符串转换为分类类型等。单个颜色值:可以使用常见的颜色名称(如 ‘red’ 、 ‘blue’ )或颜色的十六进制表示(如’#FF0000’ 、 ‘#0000FF’ )来指定所有数据点的颜色。原创 2024-04-14 12:53:08 · 1185 阅读 · 1 评论 -
Pandas的学习和使用三
在Pandas中,缺失值(Missing Values)指的是数据中的空缺或未定义的值;在Pandas中,主要使用以下两种表示缺失值的方式:1、None : Python中的特殊对象2、NaN(Not a Number):NaN是一个特殊的浮点数值,用于表示数值型数据中的缺失值NaN和None是不同的对象。一般来说:在处理数值型数据时使用NaN在处理对象型或字符串型数据时使用None在数据分析和处理过程中,经常需要处理缺失值。原创 2024-04-14 00:43:37 · 1113 阅读 · 1 评论 -
Pandas的学习和使用二
虚拟变量变换在Pandas中,虚拟变量也被称为哑变量(dummy variables)或指示变量(indicator variables)它们用于将具有多个类别的分类变量转换为0和1的二进制变量,以便在建立统计模型或机器学习算法时使用,这样可以解决某些模型对于分类变量的要求,例如线性回归模型中需要输入数值型变量。举例1、假设有一个包含"性别"这一分类变量的数据集,其中可能有"男"和"女"两个类别;2、可以使用虚拟变量来将"性别"转换为两个二进制变量,如"是男性"和"是女性",其取值为0或1。原创 2024-04-10 00:44:11 · 1770 阅读 · 1 评论 -
Pandas的学习和使用一
Pandas 包是 Python 的核心数据分析库,提供了快速、灵活、明确的数据结构。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。Pandas 适用于处理以下类型的数据:1、与 SQL 或 Excel 表类似的表格数据;2、有序和无序数据;3、带行列标签的矩阵数据;4、任意其它形式的观测、统计数据集;等。原创 2024-04-09 00:17:27 · 950 阅读 · 0 评论 -
Numpy学习和使用二
numpy支持向量处理ndarray对象,提高程序运算速度。numpy.reciprocal() 函数返回参数逐元素的倒数。如 1/4 倒数为 4/1。原创 2024-04-06 02:43:29 · 848 阅读 · 1 评论 -
Numpy学习和使用一
Numpy的学习和应用原创 2024-04-05 15:14:05 · 1005 阅读 · 1 评论