数据分析 要点


前言

提示:这只是一个步骤 具体问题具体处理

一、导入数据

提示:数据的导入有多种方式 现在说的是导入csv 当然读取的数据种类可以有很多比如 :json 数据库 文本等等...
# 需要先导入依赖
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
df=pd.read_csv('***.csv',header=None,encodeing='you like it')

二、清洗数据

提示:因为原数据可能出现异常 再进行数据处理时最好先清洗
# 随机抽样查看数据 随机抽取10个数据查看 
df.sample(10)
#也可以查看 前几个
df.head(10)
#为方便后续数据处理 可以设置数据指定为行索引
df.index=range(len(df))
#拿到的数据你可能知道各列代表什么  但是看数据的人不知道 所以你可以为数据指定列索引
df.columns=['你想要的列名','列名2']
#数据去重
#如有列名之间重复 可以 
df.drop_duplicates(subset=['列名1','列名2'],inplace=True)
# 删除空值
df.dropna()
#删除所有含空值得列
df.dropna(axis=1)
#用某个值代替每个空值
df.fillna(n)

# 字段处理
# 查看该字段所有数量
df['列名'].value_counts()
#对字段处理 比如小写 大写 等等
df['列名']=df['列名'].apply(lambda  x:x.lower())


三、绘图

提示:可以使用你喜欢的的绘图库
# 需要先导入依赖
from pyecharts.charts import Pie,Funnel,Map,Page,Bar,Sankey
from pyecharts import options as opts
from pyecharts.globals import SymbolType
#初始化 高宽  使用的是柱状图
bar1=Bar(init_opts=opts.InitOpts(width='700px',height='1000px'))
#注意 Series 是pandas.core.series.Series 有index和values
#设置x,y轴
bar1.add_xaxis(Series.index.tolist())
bar1.add_yaxis('',Series.values.tolist())
# 设置标题
bar1.set_global_opts(title_opts=opts.TitleOpts(title='***'))
bar1.set_series_opts(label_opts=opts.LabelOpts(position='right'))
# xy轴翻转 看个人喜好和需求
bar1.reversal_axis()
#构图
bar1.render('./top20.html')


总结

以上就是今天要讲的内容,本文仅仅简单介绍了数据分析的基本流程
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值