数据分析
字典
字典是另一种可变容器模型,且可存储任意类型对象。
字典的每个键值 key=>value 对用冒号 : 分割,每个键值对之间用逗号 , 分割,整个字典包括在花括号 {} 中 ,格式如下所示:
d = {key1 : value1, key2 : value2}
person_dict = {‘姓名’: [‘张三’, ‘李四’, ‘王五’], ‘年龄’: [23, 22, 24]}
jupyter 编辑器
cell 概念
-
jupyter的主要构成元素
-
组成:In[] 输入框; out[] 输出框
-
特点:查看变量 变量值的传递
pandas 库基础知识
特点
-
专门用来解决数据分析的库
-
速度快:快速处理大型数据集
-
效率高:提供大量高效处理数据的函数和方法
基本数据结构
Series
- 组成:一组数据及其对应的索引
DataFrame
-
表格型数据结构:行索引 列索引 一组数据
-
DataFrame对象可以看作是由Series对象所组成
数据分析流程
- 明确目标:在这个步骤中,你需要知道这次的数据分析任务需要解决怎样的问题,以及该如何解决。
公式拆解法:公式拆解法就是利用数学公式,将会影响因变量的因素按照层级关系罗列出来。
- 数据处理:在明确完目标以后,需要对数据进行清洗、整合等操作,把数据变成干净、规整的样子,这样后续才能对数据进行分析。
pd.read_csv(path, encoding) 就是其中一种高效读取 csv 文件的方法,返回的是一个 DataFrame 对象。
-
数据分析:在数据经过处理以后,就可以对数据进行分析,最终得到解决问题的策略。
-
数据展现:在分析完数据以后,需要通过表格或者图表的形式,直观、有效地传递出数据分析师所要表达的观点。
-
报告撰写:在对数据分析完并且展现完毕后,需要对整个过程进行一个梳理与总结。
帕累托法则也可以叫做二八法则(80/20法则),最早由意大利经济学家帕累托发现,即 80% 的财富掌握在 20% 的人手中。
它的大意是:在任何特定群体中,重要的因子通常只占少数,而不重要的因子则占多数。原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡,因此只要能控制具有重要性的少数因子即能控制全局。
帕累托法则的精髓在于:当你分辨出所有隐藏在表面下的作用力时,你就可以把大量精力投入到最大生产力上并防止负面影响的发生。