一、首先,为什么用Python进行数据分析?
从我个人而言,我选择Python的一大原因是它比较容易学,大学时代也学过C语言,Java,但都没能坚持学下去。毕业之后,接触到了Python,当时为了获取比较多的数据,就学了爬虫,就此接触了Python。Excel的处理量远低于Python,我之前用Python的最大原因是数据量实在太大,如果用Excel进行数据得处理分析的话,电脑大概率是会卡住很久的,Python在数据的清洗方面感觉确实比Excel好用太多。
Python的一大优点就是数据分析方面的多种分析库,在处理数据中有着非常大的优势,比如numpy、matplotlib、scikit-learn、pandas、ipython等工具,尤其是pandas,数据处理分析的一大利器。
二、Python常用模块
目前在各大在线教育平台上,有着各种各样优秀的Python入门课程,只需要选择一门耐心学下去就会很容易入门,当入门之后,就可以接触相关的数据分析工具库了,比如pandas。
在Python数据分析时常用的模块有3个,numpy、pandas、matplotlib,最核心的模块是pandas,功能强大,使用灵活。
三、分析环境搭建
工欲善其事,必先利其器,在进行数据分析之前,务必要准备相关的分析环境。在Python数据分析方面,个人认为Jupyter Notebook是最适合的环境。在搭建完相关环境之后,可以进行美化,具体请搜索。
四、分析过程
这次的数据来源于某电商行业数据服务商,数据内容是从2018年1月到2019年6月期间商品标题带有“毕业”二字的商品,一共17个文件,这里开始进行数据的处理分析。一个完整的数据分析过程应当包含明确分析目的,数据获取,数据探索,数据处理,数据分析,结果呈现等过程。
在进行分析之前,首先要配置合适的绘图环境及导入相关的操作模块。
作者:可乐不加冰
链接:https://zhuanlan.zhihu.com/p/72322505
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
# 导入所有使用到的模块,并设定matplotlib的绘图基础格式
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
%matplotlib inline
large = 22; med = 16; small = 12
params = {'axes.titlesize': large,
'legend.fontsize': med,
'figure.figsize': (15, 8),
'axes.labelsize': med,
'axes.titlesize': med,
'xtick.labelsize': med,
'ytick.labelsize': med,
'figure.titlesize': large}
plt.rcParams.update(params)
plt.style.use('seaborn-whitegrid')
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParam
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
plt.rcParams['savefig.dpi'] = 300 #图片像素
#plt.rcParams['figure.dpi'] = 300 #分辨率
# 色卡
zhong_gray = '#8C8EA1' #RGB=140,142,161
qian_gray = '#959EC3' #RGB=149,158,195
dan_gray ='#D9DBF5' #RGB=217,219,245
qian_blue = '#3B4F88' #RGB=59,79,136
shen_black = '#0A0D1E' #RGB&#