【无标题】python数据分析

最新推荐文章于 2024-11-14 13:48:50 发布

泪尽痕

最新推荐文章于 2024-11-14 13:48:50 发布

阅读量108

点赞数

文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/qq_65966384/article/details/131120425

版权

本文介绍了为何选择Python进行数据分析，强调了Python在数据处理上的优势，如numpy、pandas和matplotlib等库。详细阐述了数据分析环境的搭建，特别是Jupyter Notebook的使用。接着，文章展示了数据清洗的过程，包括重复值、缺失值和异常值的处理。通过对电商数据的分析，揭示了数据的周期性变化和毕业季相关商品的销售特点。

摘要由CSDN通过智能技术生成

一、首先，为什么用Python进行数据分析？

从我个人而言，我选择Python的一大原因是它比较容易学，大学时代也学过C语言，Java，但都没能坚持学下去。毕业之后，接触到了Python，当时为了获取比较多的数据，就学了爬虫，就此接触了Python。Excel的处理量远低于Python，我之前用Python的最大原因是数据量实在太大，如果用Excel进行数据得处理分析的话，电脑大概率是会卡住很久的，Python在数据的清洗方面感觉确实比Excel好用太多。

Python的一大优点就是数据分析方面的多种分析库，在处理数据中有着非常大的优势，比如numpy、matplotlib、scikit-learn、pandas、ipython等工具，尤其是pandas，数据处理分析的一大利器。

二、Python常用模块

目前在各大在线教育平台上，有着各种各样优秀的Python入门课程，只需要选择一门耐心学下去就会很容易入门，当入门之后，就可以接触相关的数据分析工具库了，比如pandas。

在Python数据分析时常用的模块有3个，numpy、pandas、matplotlib，最核心的模块是pandas，功能强大，使用灵活。

三、分析环境搭建

工欲善其事，必先利其器，在进行数据分析之前，务必要准备相关的分析环境。在Python数据分析方面，个人认为Jupyter Notebook是最适合的环境。在搭建完相关环境之后，可以进行美化，具体请搜索。

四、分析过程

这次的数据来源于某电商行业数据服务商，数据内容是从2018年1月到2019年6月期间商品标题带有“毕业”二字的商品，一共17个文件，这里开始进行数据的处理分析。一个完整的数据分析过程应当包含明确分析目的，数据获取，数据探索，数据处理，数据分析，结果呈现等过程。

在进行分析之前，首先要配置合适的绘图环境及导入相关的操作模块。

作者：可乐不加冰
链接：https://zhuanlan.zhihu.com/p/72322505
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

# 导入所有使用到的模块，并设定matplotlib的绘图基础格式
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
%matplotlib inline

large = 22; med = 16; small = 12
params = {'axes.titlesize': large,
          'legend.fontsize': med,
          'figure.figsize': (15, 8),
          'axes.labelsize': med,
          'axes.titlesize': med,
          'xtick.labelsize': med,
          'ytick.labelsize': med,
          'figure.titlesize': large}
plt.rcParams.update(params)
plt.style.use('seaborn-whitegrid')

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParam
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
plt.rcParams['savefig.dpi'] = 300 #图片像素
#plt.rcParams['figure.dpi'] = 300 #分辨率

# 色卡
zhong_gray = '#8C8EA1' #RGB=140，142，161 
qian_gray = '#959EC3' #RGB=149，158，195 
dan_gray ='#D9DBF5' #RGB=217，219，245 
qian_blue = '#3B4F88' #RGB=59，79，136 
shen_black = '#0A0D1E' #RGB&#