pandas库

1.pandas库基础知识

两种数据结构

1)Series对象
 Series:由一组数据及其对应索引组成
 dtype:object(Series对象中的数据至少有一条是字符串类型)。
 Series对象创建:pd.Series(data)
  data可以是列表、字典、标量、n维数组,字符串
Series的属性与方法:
  s.index(索引),s.values(值),s.sort_index(根据索引排序),s.sort_values(根据数值排序),del s[‘列索引名’],s_1 = s.drop(‘索引名’)(列表形式[‘1’,‘2’]),S.isnall(查看为空的值,返回布尔值)
2)DataFrame对象
 DataFrame:由行索引,列索引和一组数据组成
 DataFrame对象创建:pd.DataFrame(data)
  data可以是字典(各键值长度一定相等),n维数组
3)以上两种数据结构联系
 DataFrame对象可以看作是由Series对象所组成的
 type(df[‘列索引’]) 返回结果为Series对象
4)python安装和导入pandas模块
 安装:pip install pandas
 导入:import pandas as pd
5)基本方法
 df.head()方法和df.tail()方法能够默认查看DataFrame对象的前5行或后5行数据,括号中填写数字可以指定要查看的行数

2.数据分析遵循的步骤

1)明确目标(需要解决的问题,该如何解决。明确分析需求,搭建分析框架,收集分析数据)
2)数据处理(对数据进行清洗,整合)
3)数据分析(分析得到策略)
4)数据展现(通过表格或图表形式展现数据)
5)报告撰写(对整体过程进行梳理和总结)

3.读取.csv文件

 pd.read_csv(path,encoding)返回的是一个DataFrame对象。path可以是是相对路径(所处的文件夹的位置)或者绝对路径(电脑存储的完整路径),encoding可以是“utf-8”或者“jbk”

4.数据分析常用方法

 帕累托法则(二八法则)
 主要用途:寻找关键因素,获得最大效益的同时减少资源损耗
 精髓:分辨出所有隐藏在表面下的作用力时,就可以把大量精力投入到最大生产力并防止负面影响的发生,即“把钱花在刀刃上”。

5.数据分析报告结构

 1)背景与目的
 2)分析思路
 3)分析正文(数据来源、数据处理、数据分析)
 4)结论与建议
 5)附录

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值