1.pandas库基础知识
两种数据结构
1)Series对象
Series:由一组数据及其对应索引组成
dtype:object(Series对象中的数据至少有一条是字符串类型)。
Series对象创建:pd.Series(data)
data可以是列表、字典、标量、n维数组,字符串
Series的属性与方法:
s.index(索引),s.values(值),s.sort_index(根据索引排序),s.sort_values(根据数值排序),del s[‘列索引名’],s_1 = s.drop(‘索引名’)(列表形式[‘1’,‘2’]),S.isnall(查看为空的值,返回布尔值)
2)DataFrame对象
DataFrame:由行索引,列索引和一组数据组成
DataFrame对象创建:pd.DataFrame(data)
data可以是字典(各键值长度一定相等),n维数组
3)以上两种数据结构联系
DataFrame对象可以看作是由Series对象所组成的
type(df[‘列索引’]) 返回结果为Series对象
4)python安装和导入pandas模块
安装:pip install pandas
导入:import pandas as pd
5)基本方法
df.head()方法和df.tail()方法能够默认查看DataFrame对象的前5行或后5行数据,括号中填写数字可以指定要查看的行数
2.数据分析遵循的步骤
1)明确目标(需要解决的问题,该如何解决。明确分析需求,搭建分析框架,收集分析数据)
2)数据处理(对数据进行清洗,整合)
3)数据分析(分析得到策略)
4)数据展现(通过表格或图表形式展现数据)
5)报告撰写(对整体过程进行梳理和总结)
3.读取.csv文件
pd.read_csv(path,encoding)返回的是一个DataFrame对象。path可以是是相对路径(所处的文件夹的位置)或者绝对路径(电脑存储的完整路径),encoding可以是“utf-8”或者“jbk”
4.数据分析常用方法
帕累托法则(二八法则)
主要用途:寻找关键因素,获得最大效益的同时减少资源损耗
精髓:分辨出所有隐藏在表面下的作用力时,就可以把大量精力投入到最大生产力并防止负面影响的发生,即“把钱花在刀刃上”。
5.数据分析报告结构
1)背景与目的
2)分析思路
3)分析正文(数据来源、数据处理、数据分析)
4)结论与建议
5)附录