python对某一列数据求占比_用python进行数据分析的套路

本文介绍了使用Python进行数据分析的步骤,包括导入数据、数据处理、异常值处理、数据可视化,涉及pandas、numpy、matplotlib和seaborn等库。通过示例展示了如何计算数据占比、处理缺失值和异常值、数据分组聚合、数据可视化,如热力图、饼图、柱状图和折线图等。
摘要由CSDN通过智能技术生成

经过一段时间的学习,总结一下目前所学知识,在用python进行数据分析的过程中所用到的函数及分析过程。

第一步 导入包

常用的包有以下这些:

1.用于处理数据的包

import pandas as pd

import numpy as np

pandas 和numpy基本包含了对数据处理的所有操作

2.用于数据可视化的包

import matplotlib.pyplot as plt

import seabron as sns

matplotlib.pyplot包用于基本的数据可视化,画柱,线,点图的时候用

seabron中的headmap用来画热力图

3.连接数据库的包

import pymysql

第二步 导入数据

1.导入数据的话一般考虑csv类型

pd.read_csv(r'路径/data.csv',dtype='object',encoding='utf-8')#可以选择指定文本类型和编码语言

df.to_csv('C:/Users/10136/Desktop/comma_sep1.csv ')#保存数据

2.从数据库导入数据

#导入包

import pymysql

连接数据库

conn=pymysql.connect(host='localhost',port=3306,

user='root',password='123456',db='brazilian',charset='utf8')#db为数据库名

query='select * from new_orders_merged'#编写SQL语句

sql_data=pd.read_sql(query,conn)#执行SQL语句,从数据库中导入名为new_orders_merged的表

第三步 数据处理

1.查看数据基本结构

查看行和列时可以用data.shape

查看每列数据类型用data.dtypes

查看数据的前5行用data.head()

2.处理缺失值

查看数据是否有缺失值

可以用data.insnull(),会列出所有数据的bool类型,有缺失值为True

data.isnull().any()#显示有缺失值的列的bool类型,有缺失值为True

data[data.isnull().values==True]#显示所有带有缺失值的行列,适用于缺失值较少的数据

data.isnull().sum()#查看每列缺失值的个数,可以根据结果对怎样处理缺失值做出判断

删除缺失值

如果缺失值相对样本数据影响不大,对缺失值可以采用删除处理

data.dropna()#这是对样本中所有缺失值所在的行进行删除

data.dropna(subset=['列名'])#这是对指定列的缺失值删除所在行

data.dropna(how='any/all',axis=0)#删除缺失值所对应的行,any是指只要有缺失值则对整行删除,all是指当整行都是缺失值则对其删除。

填充缺失值

如果删除缺失值对样本影响较大,可以采用填充的方式补充缺失值

data.fillna('')#可以把所有缺失值补充为统一值*

data['列名']fillna()#针对某一列进行补充

data['列名']fillna(data['列名'].mean())#以这列的平均值作为补充

data['列名']fillna(data['列名'].interpolate())#以缺失值上下数的平均值进行补充

data.fillna(axis=1,method='ffill')#以缺失值同行前一列的值进行补充,axis=0是以缺失值同列上面一行的值进行补充。

3.处理重复值

删除重复值

data.drop_duplicates(keep='first/last'/False)#first :保留第一行重复值,last:保留最后一行重复值,False:不保留重复值,删除所有重复的数据

4.处理异常值

如果数据中有某一列的数据有异常,可以选择性的筛选滤去这些异常值

#方法1

app=app.iloc[np.where(app["

  • 5
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值