前言
提示:这只是一个步骤 具体问题具体处理
一、导入数据
提示:数据的导入有多种方式 现在说的是导入csv 当然读取的数据种类可以有很多比如 :json 数据库 文本等等...# 需要先导入依赖
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
df=pd.read_csv('***.csv',header=None,encodeing='you like it')
二、清洗数据
提示:因为原数据可能出现异常 再进行数据处理时最好先清洗# 随机抽样查看数据 随机抽取10个数据查看
df.sample(10)
#也可以查看 前几个
df.head(10)
#为方便后续数据处理 可以设置数据指定为行索引
df.index=range(len(df))
#拿到的数据你可能知道各列代表什么 但是看数据的人不知道 所以你可以为数据指定列索引
df.columns=['你想要的列名','列名2']
#数据去重
#如有列名之间重复 可以
df.drop_duplicates(subset=['列名1','列名2'],inplace=True)
# 删除空值
df.dropna()
#删除所有含空值得列
df.dropna(axis=1)
#用某个值代替每个空值
df.fillna(n)
# 字段处理
# 查看该字段所有数量
df['列名'].value_counts()
#对字段处理 比如小写 大写 等等
df['列名']=df['列名'].apply(lambda x:x.lower())
三、绘图
提示:可以使用你喜欢的的绘图库# 需要先导入依赖
from pyecharts.charts import Pie,Funnel,Map,Page,Bar,Sankey
from pyecharts import options as opts
from pyecharts.globals import SymbolType
#初始化 高宽 使用的是柱状图
bar1=Bar(init_opts=opts.InitOpts(width='700px',height='1000px'))
#注意 Series 是pandas.core.series.Series 有index和values
#设置x,y轴
bar1.add_xaxis(Series.index.tolist())
bar1.add_yaxis('',Series.values.tolist())
# 设置标题
bar1.set_global_opts(title_opts=opts.TitleOpts(title='***'))
bar1.set_series_opts(label_opts=opts.LabelOpts(position='right'))
# xy轴翻转 看个人喜好和需求
bar1.reversal_axis()
#构图
bar1.render('./top20.html')