python数据分析及可视化（一）课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计

hwwaizs

已于 2022-07-21 11:57:56 修改

阅读量1.9k

点赞数 5

分类专栏： python数据分析文章标签： python 爬虫 pycharm

于 2021-11-21 11:55:37 首次发布

本文链接：https://blog.csdn.net/hwwaizs/article/details/121411254

版权

数据分析及可视化介绍

这门课涉及多个库，其中Numpy用于数值运算；Pandas用于数据处理；Matplotlib、Seaborn、Pyecharts用于数据可视化。

数据分析介绍

概念

用适当的统计分析方法对收集来的大量数据进行分析；提取有用信息和形成结论；对数据加以详细研究和概括总结的过程。数据分析的核心就是数据，拿到的数据不能直接使用，通过数据清洗，去除无用、杂乱的数据，提取有用的信息，得到结论，侧重于整个分析的过程。

流程

明确目的—>准备数据—>数据解析—>分析数据—>获得结论—>成果可视化
根据数据分析目的的不同，可以分为三种，现状分析、原因分析、预测分析。现状分析是告诉你过去发生了什么，为什么会导致这个现状，如通过数据分析，了解电商平台的用户画像，为电商企业做客户的留存率等指标分析，进而帮助平台进行产品化的运营；原因分析是告诉你这个现状为什么会发生，如屏蔽垃圾邮件，邮件服务器根据邮件的内容对邮件进行归类；预测分析是根据现有的状况，在现有合理数据的基础上，预测未来可能要发生的趋势和事情，如预测股票、比特币的涨幅趋势。

数据分析和数据挖掘

相似：都是对数据进行分析、处理等操作
区别：1.在应用工具上，数据分析是借助现有的分析工具进行，数据挖掘一般都要通过编程来实现；
	 2.在行业知识方面，数据分析要求对所从事的行业有比较深的了解，更多的是将数据和业务联系起来，数据挖掘则不需要太多的行业知识，更专注于技术层面。

Jupyter Notebook介绍

开源的网络应用，可以用于创建和共享代码与文档，可以在其中编写代码、运行代码、查看输出、可视化数据并查看结果，是一款可执行端到端的数据科学工作流程的便捷工具，其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。

Jupyter Notebook特点

1.支持Markdown语法
2.分块执行代码
3.直接输出变量
4.智能Tab键提示
5.查看源码，方法后加问好，运行就可以
6.表格数据交互显示
7.可视化图表显示

Jupyter Notebook使用

pip install jupyter

如何运行 Jupyter Notebook？
1.首先需要建立单独项目文件夹(建议名称不要包含中文)
2.windows+R输入cmd进入windows终端
3.切换到该文件夹路径下，盘符：切换盘符，cd + 文件夹路径切换到当前盘符下的路径
4.打开命令:jupyter notebook

统计学

数据分析、机器学习跟统计学是分不开的。概率论与数理统计更加倾向于数学的内容，有大量的公式和推到；统计学更加侧重于概念性的解释。概率论是统计学的基础。

统计学的应用

1.连续玩了10把猜大小的游戏，10把开的都是"大"。接下来，大家是继续猜"大"？还是加倍压"小"呢？
要避免进入小数陷阱，大和小出现的概率都是一样的，都是50%，它们两者之间没有任何的关系，两者是独立并随机的。有人说前面都是出的大，后面出小的概率很大，我前面没有猜中，后面一定会猜中，这其实是赌徒谬论。
2.当你看到 “计算机行业人均年收入超过50万元” 的新闻是否会焦虑呢？
人均年收入的指标是不可靠的。收入低的人被薪资高的人给平均了，为平均值陷阱。在数据分析中，要看平均值指标的，把数据进行分组。
3.每一次都错过公交车的你是真的很衰吗？
墨菲定律所产生的现象，越不想发生的事情，在脑海中的印象就越深刻，会加重我们的期望，出现的概率就会越大。每天去等公交，车正常进出，正常上车的话，你对它的印象就比较浅；如果某天公交车等了一个小时都没来，你就会印象特别深刻。
统计学在生活中无处不在，给我们观察世界的一个全新的视角。

统计学的介绍

定义：统计学是通过收集、整理、分析、描述数据等手段，以达到推测所测对象的本质，甚至预测对象未来的一门综合性学科。统计学的核心是数据。
收集数据可以用爬虫，整理数据用pandas，从几百万行中整理出需要的部分，分析数据找到规律，用可视化的形式呈现出来，描述数据也可以以可视化的形式呈现。

统计学的分类

统计学不仅可以推断数据的本质，还可以做预测。

描述统计学

定义：描述统计学是指运用制表和分类，图形以及计算概括性数据来描述数据特征的各项活动。
描述数据的集中趋势，离散程度，分布形态等都是描述统计学要做的事情。
股票分析：
1.采集股票数据，对数据进行加工处理；2.计算因子值。3.概括因子的分布特征、图表展示出来，得到相关的信息。
如果用历史的数据去推断出股票的未来走势，就要用到推断性统计学。

推断统计学

定义：推断统计学是研究如何利用样本数据来推断总体特征的统计方法，是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出概率形式表述的推断。包括估计、假设检验、方差分析、相关分析、回归分析等。

描述性统计学是借用现有的数据，来计算指标，衡量数据的结果，常用的均值、中位数、标准差、方差等，而推断性统计学是以样本数据来推断总体，涉及到理和函数，x轴，y轴等。

数据分析用到的比较多的是描述性统计学的知识，机器学习。机器学习、深度学习大部分用到的是描述性加推断性统计学的知识。
二者是相辅相成的，没有好坏的区别，要看你所利用数据进行的分析。

统计学的基本概念

数据

统计学研究的核心是数据。
1000(元)、“女性”、“一年级”、[2000,4000] 等均为数据，数据不仅仅是阿拉伯数据，还有分类型的数据等。

统计学数据的分类

在这里插入图片描述
最常见的分类是分类型、顺序型、数值型数据。
分类型数据是对事物进行分类的结果，性别可以分为男和女，它们之间不能进行排序，没有先后之分的。分类型数据的特点是不能进行排序，计算。
顺序型数据，生活当中经常遇到，在饭店就餐后，APP、店员会邀请你进行评价，非常满意、满意、一般、差之间已经有了先后的顺序。顺序型数据的特点是可以进行排序，但是不能进行计算。有时可以对数据进行量化，比如非常满意为90分，满意为80分，一般为60分进行转换。
数值型数据，对数据的精确测度，比如某个人的年龄为18，体重为180斤。特点为既可以排序也可以进行计算。
分类型数据和顺序型数据也被称为定性数据，数值型数据为定量数据。数值型数据所包含的信息量最大。
脱敏：从网上下载公开的数据，但数据里又包含隐私的数据，就要对数据进行脱敏的操作。比如可以把90，80转化为非常满意、满意等等。

高级数据（数值型）可以向低级型的数据（分类型、顺序型）进行转换，使用低级数据的方法。
如“1000元”、“2500属于[2000,4000]”为数值型数据；“女性”为分类型数据；“一年级”、“[2000,4000]属于低等收入”为顺序型数据。
判断分类型和顺序型数据的指标是看数据能否进行排序。

观测的数据是没有办法人为控制的，如人的薪资，也可看到但是无法干预；
实验的数据是可以通过控制一些量来改变或者影响结果。
截面数据是指在一个时间点或者时间段内获取到的数据，有始有终的获取数据，如公司上一个月在全国的销售额等；
时间序列数据会跟着时间的变化而发生变化的数据，如股票数据的变化，跟时间是密不可分的，在不同的时间范围内呈现不同的规律；
混合数据,如2019和2020年的年薪，以及2020年和2021年的年薪数据是相互独立的。不同城市的薪资也会不同，如果用城市进行切割，获取的数据就会有局限性。可以利用维度，如不同城市不同时间的薪资，这就是混合数据。
离散型数据是独立的数据，如2018年1月1日，2021年1月1日，不可以无限细分的；
连续型数据是个范围，可以进行无限细分，如2018-1-1到2021-1-1，可以在区间内以周、月、小时等进行细分。

特殊数据，虚拟变量数据，将真实的数据转换为0，1，便于计算机使用，创建虚拟环境变量。如下表中，出现的城市为1，没有出现的为0.