二、描述性统计分析及可视化

描述性统计分析概述

  1. python原始的数据类型:字符型、逻辑型、数值型、复数型。
  2. 从统计方面来看,数据分为三种类型:名义型、等级型、连续型
    • 名义变量:性别、民族等,没有顺序之分,名义变量不一定是字符类型
    • 等级变量:有顺序之分,可以是字符也可是数值型,差值没有意义。
    • 连续变量:只能是数值型,连续变量的差值是有意义的。

:连续变量可以当作等级变量用,等级变量也可以当成连续变量,连续变量会产生很多噪音,分组换为等级变量会消除噪音。

  1. 在统计学中,名义变量只有两个统计量:频次和百分比
  2. 在统计学中,连续变量的统计量:
    • 集中趋势(位置):均值、中位数、众数
    • 离散程度(分散程度):方差、标准差、极差、四分位差等。
    • 偏离程度:右偏函数、对称函数、左偏函数(少见)

:离散程度即离开均值的程度,可以通过观察图像得知。
5. 分布函数
- 正态分布:对称函数,如人的身高等。
- 泊松分布:如网页点击量、队伍长度。
- 伽码分布:如灾难对我们造成的经济损失。
- 对数正态分布:是右偏最严重的函数,如收入、利润等。

-描述性统计建模、预测
右偏严重的函数(对数正态分布、伽马分布)选用中位数为统计量对原始数据取对数,使其成为对数正态分布
右偏不严重的函数(正态分布、泊松分布)选用均值为统计量选用正态分布函数
  1. 判断函数是否右偏:
    (1)利用数据画直方图,中位数<均值则右偏
    (2)计算偏度,偏度大于1的右偏严重。

示例

查看北京和上海的收入分布情况

步骤一:判断是否右偏严重。
做描述性统计分析的话,右偏函数选用中位数作为集中水平,右偏不严重的函数选用均值作为集中水平。
步骤二:看离散程度,一般是标准差。

描述统计总结

  • 分类变量:(维度指标)指时间、年度等,分类变量又包括名义变量和等级变量。
  • 连续变量:(度量指标)利润、收入、利润率
-分析可视化
一个分类变量value_counts()柱形图
两个分类变量pd.crosstab(snd.districts,snd.school)标准化堆叠柱形图
一个连续变量agg(['mean','std','skew'])直方图
一个分类+一个连续snd.price.groupby(snd.district).sum()柱形图、条形图、盒须图
两个分类+一个连续snd.pivot_table(values='',index='',columns=',aggfunc=np.mean)分类柱形图

一个分类变量

#引入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import matplotlib
#找到文件夹,读取文件
os.chdir(r'E:\数据与脚本\4describe')
snd  = pd.read_csv('SndHsPr.csv')
snd

在这里插入图片描述

district = {'fengtai':'丰台区','haidian':'海淀区','chaoyang':'朝阳区','dongcheng':'东城区','xicheng':'西城区','shijingshan':'石景山区'}
# 取字典中的元素
snd['district'] = snd.dist.map(district)

snd.district.value_counts()

在这里插入图片描述
在这里插入图片描述

  • 可视化(plot(kind='类型')
# 显示中文
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['Simhei']# 之人默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号‘-’显示为方块的问题

snd.district.value_counts().plot(kind='bar')

在这里插入图片描述

一个连续变量

  • 统计量
snd.price.mean() #均值
snd.price.median() #中位数,中位数<均值所以是右偏函数
snd.price.std()# 标准差:比较离散程度的时候有用,一个标准差没有用
snd.price.skew() #判断是否右偏,>1 表示严重右偏
snd.price.quantile([0.01,0.5,0.99])# 取分位点的

#一次聚合多个统计量
snd.price.agg(['mean','median','sum','std','skew'])
  • 直方图(观察右偏与否)
snd.price.hist(bins=40)# 分40组

在这里插入图片描述

两个分类变量

  • 频次表
sub_sch = pd.crosstab(snd.district,snd.school)
sub_sch 

在这里插入图片描述

  • 堆叠柱形图:只能看出样本量,不能对比样本占比情况。
sub_sch.plot(kind='bar',stacked=True)

在这里插入图片描述

  • 标准化堆叠柱形图:标准化堆叠柱形图可以看出占比情况,样本量的大小用柱子的胖瘦代替。
sub_sch["sum1"]=sub_sch.sum(1) #加和成为一列

#按行求百分比
sub_sch = sub_sch.div(sub_sch.sum1,axis = 0)#除法得到百分比

在这里插入图片描述

from stack2dim import *
stack2dim(snd,i='district',j='school')

在这里插入图片描述

分类变量和连续变量

按照分类变量分组对连续变量求统计量

  • 柱形图
#柱形图
snd.price.groupby(snd.district),mean().plot(kind='bar')#price为连续变量,district是分类变量
  • 条形图
snd.price.groupby(snd.district).mean().sort_values(ascending=True).plot(kind='barh')

在这里插入图片描述

  • 分类盒须图:比较不同分类水平上的连续变量变化情况(比较中位数)
sns.boxplot(x = 'district', y = 'price', data = snd)

在这里插入图片描述

汇总表:两个分类变量+一个连续变量

snd.pivot_table(values='price', index='district', columns='school', aggfunc=np.mean)

在这里插入图片描述

  • 可视化
snd.pivot_table(values='price', index='district', columns='school', aggfunc=np.mean).plot(kind = 'bar')

在这里插入图片描述

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 安居客出租房(武汉为例)爬虫+数据分析+可视化 这个爬虫是我前段时间在淘宝上做单子的时候遇见的一个客户需求。本来以为就是一个简单的爬虫项目。但后面客户加了数据清洗和数据分析的要求。而后又加了要详细代码解释的需求等等。直到最后客户坦白说这是他们大专的毕设.......但是这个单子坐下来只有200左右,我想了一下,感觉好亏啊。在淘宝上随便找一个做毕设的都要好多钱的,而且客户本身的代码能力、数学、逻辑能力都很差,导致我每行都给注释以及看不懂,在我交付代码后又纠缠了我一个多礼拜。反正总体做下来的感觉就是烦躁。头一次感觉到了客户需求变更带来的巨大麻烦。 总之这是一次不是很愉快的爬虫经历。但是作为我爬虫以来注释最详细的一次,以及第一次真正使用像matplotlib这种数据分析库的代码,我认为还是有必要分享出来给大家当个参考的(PS:大佬轻拍~)。爬虫本身几乎没有什么难度,的也比较乱,敬请见谅。 **功能** 爬取安居客上的出租房信息(武汉地区的),并通过爬取的数据进行数据清洗以及数据分析。给出四个不同层面的可视化图。最终结果如下图所示: ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/1.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/2.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/3.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/4.png) **环境** 1. Windows 10 2. python3.7 **使用方法** 首先声明该爬虫由于是特定情况下的,所以本身的通用性特别差,仅可以对安居客网站上的武汉的出租房信息进行爬取,且需要自己手动更新cookie。同时在对数据进行分析及可视化的时候由于也是特别针对武汉出租房的进行的,所以针对性也比较强。如果别的需求需要自己进行更改。 1. 访问[安居客网址](https://wuhan.anjuke.com/),获取cookie。 > tip:获取cookie的方法可根据[此链接](https://jingyan.baidu.com/article/5d368d1ea6c6e33f60c057ef.html) 2. 在项目中找到`spider.py`的文件,将第12行的cookie换成你自己的cookie。 3. 运行`spider.py`,获取房源信息。运行后应会产生一个`武汉出租房源情况.csv`的文件。此文件为我们从安居客上爬取的房源信息,其中包含`房屋租住链接、房屋描述、房屋地址、房屋详情(户型)以及经纪人、房屋价格`五个属性。 4. 在获取了数据之后我们运行`matplotlib.py`文件。进行数据清洗,分析,可视化。运行后即可获得**功能**中展示四个图片。 **技术栈** 1. request 2. parsel 3. pandas 4. matplotlib **进步(相比之前)** 此次爬虫相比之前的技术上可以说有减无增。但其中注释相当详细,可谓是每行代码都有注释。所以对于初学者应该有一些用处。同时使用matplotlib进行了数据分析可视化等。对于数据处理的代码的注释也是几乎每行都有注释的。
数据可视化分析全文共3页,当前为第1页。数据可视化分析全文共3页,当前为第1页。数据可视化 数据可视化分析全文共3页,当前为第1页。 数据可视化分析全文共3页,当前为第1页。 简介 数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。 概述 数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。 数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。"数据可视化"这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。 基本概念 数据可视化技术包含以下几个基本概念: 数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间; 数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算; 数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据; 数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。 目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。 数据可视化分析全文共3页,当前为第2页。数据可视化分析全文共3页,当前为第2页。相关领域 数据可视化分析全文共3页,当前为第2页。 数据可视化分析全文共3页,当前为第2页。 数据采集 数据采集(有时缩为DAQ或DAS),又称为"数据获取"或"数据收集",是指对现实世界进行采样,以便产生可供计算机处理的数据的过程。通常,数据采集过程之中包括为了获得所需信息,对于信号和波形进行采集并对它们加以处理的步骤。数据采集系统的组成元件当中包括用于将测量参数转换成为电信号的传感器,而这些电信号则是由数据采集硬件来负责获取的。 数据分析 数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。   数据分析的类型包括:    1)探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。    2)定性数据分析:又称为"定性资料分析"、"定性研究"或者"质性研究资料分析",是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。 数据治理   数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术,数据治理旨在: 1)增强决策制定过程中的一致性与信心 2)降低遭受监管罚款的风险 3)改善数据的安全性 4)最大限度地提高数据的创收潜力 5)指定信息质量责任 数据管理   数据管理,又称为"数据资源管理",包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理,DAMA所提出的正式定义是:"数据资源管理是指用于正确管理企数据可视化分析全文共3页,当前为第3页。数据可视化分析全文共3页,当前为第3页。业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程"。这项定义相当宽泛,涵盖了许多可能在技术上并不直接接触低层数据管理工作(如关系数据库管理)的职业。 数据可视化分析全文共3页,当前为第3页。 数据可视化分析全文共3页,当前为第3页。 数据挖掘   数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为商业智能组织和金融分析师所采用;不过,在科学领域,数据挖掘也越来越多地用于从现代实验与观察方法所

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值