Python数据科学技术详解与商业实践 -读书笔记 一

本文探讨了Python数据科学中的变量类型,包括名义变量、等级变量和连续型变量及其分布特性。介绍了正态分布的关键特点,以及分类变量如名义变量和等级变量的统计量计算。同时,讲解了描述连续变量集中趋势的统计量,如平均数、中位数和众数。此外,还分享了编辑代码时的快捷键技巧。
摘要由CSDN通过智能技术生成

变量类型与分布类型

名义变量
等级变量(有序分类变量)
连续型变量

变量的分布类型是对实际变量分布的一个概括和抽象。经常遇到的分布有二项分布、正态分布、卡方分布、t分布、f均匀分布和泊松分布等。
探索变量分布的意义在于:只要知道某个变量服从某个分布,就可以很快地了解变量在相应取值时的概率(分布是从无数个变量频率得到的,对其统计特性有了深入的分析),并且结合相应的业务场景做出解释。
正太分布的特性: 均值 = 中位数 = 众数
正太分布的3\sigma准则。

分类变量的统计量

名义变量等级变量统称为分类变量。
名义变量是指变量值不能比较大小的分类变量,例如性别男和女,并不能说女性高于男性或者说男性高于女性。这类变量还有民族、职业、行业(采掘业/制造业等)。名义变量有两种统计量,分别是频次、百分比
等级变量指变量值有等级关系,可比较大小,例如教育程度(小学<初中<高中<大学)、产品质量(低<中<高)等。等级变量有四类统计量,分别是频次、百分比、累计频次、累计百分比

连续变量的分布与集中趋势

描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值