最新如何学习python数据分析？_如何学习python进行数据分析-CSDN博客

本文链接：https://blog.csdn.net/2401_84688317/article/details/138420269

本文介绍了Python编程中的基本概念，如定义变量、算数运算、函数的使用，以及循环结构。重点讲解了Pandas和Numpy库在数据分析中的应用，包括数组处理、统计分析和可视化。同时强调了理解和掌握函数本质和数据预处理的重要性。

摘要由CSDN通过智能技术生成

值渭河

工作里需要定义很多变量，比如让a = 0 ，让a = []，让他们等于一个空数组，用来计算、循环、储存各种数字和结果

4、算数运算符

这里就是最基础的逻辑，在上面你已经可以输入变量，定义变量，输出变量，链路已经ok了，现在就是说上面的：你要往上面加逻辑。

比如业务方给你提了一个需求：我要今天订单+昨天的订单

5、

函数这两个字初中就学过了，输入一个x 等于一个 y。包括第一个print，包括我们说的算数运算符，背后都有源码写了一个函数，直接调用函数，就是调用背后的逻辑

举个例子，前面学习了 len() 函数，通过它我们可以直接获得一个字符串的长度。我们不妨设想一下，如果没有 len() 函数，要想获取一个字符串的长度，该如何实现呢？

n=0

for c in “http://www.nowcoder.com/link/pc_kol_bzwh”:

n = n + 1

print(n)>>>33

函数的本质就是一段有特定功能、可以重复使用的代码，这段代码已经被提前编写好了，并且为其起一个“好听”的名字。在后续编写程序过程中，如果需要同样的功能，直接通过起好的名字就可以调用这段代码。

下面演示了如何将我们自己实现的 len() 函数封装成一个函数：

#自定义 len() 函数

def my_len(str):

length = 0

for c in str:

length = length + 1

return length

#调用自定义的 my_len() 函数

length = my_len(“http://www.nowcoder.com/link/pc_kol_bzwh”)

print(length)

#再次调用 my_len() 函数

length = my_len(“http://www.nowcoder.com/link/pc_kol_bzwh”)

print(length)

在函数内实现加减乘除，比如计算出前两天的订单，前两年的订单，每天只需要调用函数即可

6、循环

循环是相对抽象的点，你就想象计算机不断的运行一次逻辑，这次逻辑可以递增，递减，的各种运行，来实现一些诸如【累计求和】这样的逻辑

Python中的循环语句有 2 种，分别是 while 循环和 for 循环

add = “http://www.nowcoder.com/link/pc_kol_bzwh”

#for循环，遍历 add 字符串

for ch in add:

print(ch,end=“”)

运行结果为：

http://www.nowcoder.com/link/pc_kol_bzwh

我自己学的时候，其实比c来说更痛苦的是，这个“ch”他很不规范，一般在c里面就写ijk，好理解，实际上这里的ch就类比c里面的ijk，意思是有这么一个扫描机器人，对着“add”这个字符串扫过去，每扫一次记一个数，记到ch这个东西里，最后把它输出来。

循环可以做很多事，测试不同输入下（吧要输入的变成字符串，然后让程序遍历），函数的结果，然后输出结果（比如拟合的误差值，来直接判断哪个变量更合适）

以上，可以被认为是程序语言基础的部分，实际的基础还有很多，并且巩固上述知识点，有最基础的算法帮忙练习（比如实现累计求和，相加等）这些需要自己去补齐（例如if函数等，这个很好理解）

这里往下，我们开始python库里数据分析包的实践（其实主要就是调用函数）

二、数据分析python库实践

1、常用的库

库可以看做是一堆函数的集合，就像是一本，import 库名就像是命令计算机打开这本字典

常用的库主要是三个，算上数据科学的可以有十个

分别是：

Pandas、Numpy（数据清晰、分析、探索、数组处理）；Scikit-learn、TensorFlow、Keras（机器学习库）、Gradio（机器学习部署）；SciPy、Statsmodels（统计专用库）；matplotlib、Seaborn（可视化）

一般来说，学Pandas、Numpy、Plotly足够了

2、Numpy库

Numpy突出一个数组处理能力，你就把数组看成一个excel表格，在一个个单元格内储存着数据

结合上面的基础教程，当一个数据进来的时候，你应该准备好一个个箱子把数据装进去，这些动作涉及的函数就包括

（1）数组创建

例如：

import numpy as npa = np.array([1,2,3,4])b = np.array([,'点赞','分享','求关注'])print(a)

数组之间可运算（参考线性代数的逻辑），数组可和数组进行加减乘除

选择数组间的数字，基本的索引和切片，转置（transpose），三角函数运算，皆可百度，你只要知道他如何使用，数学上对于数组的运算皆可实现

3、Pandas库

pandas库的优势在于：对齐各种不同类型的数据源、集成时间序列功能、灵活处理缺失数据、合并出现在其它数据库的关系型运算

说白了，比numpy更灵活，有时候只用pandas也可以满足需求

学习思路是：

（1）熟悉series、两个数据类型

（2）常用的索引方法和

（3）索引、选取、计算和过滤逻辑学习思路如numpy

（4）介绍一些汇总统计可以利用dataframe去做，例如corr方法，cov方法

（5）处理缺失数据，包括dropna\fillna\isnull\notnull等函数

上述的两种库不要死记硬背函数，最好是记住他能做什么，比如可以处理数组，运算数组，切割、索引数组，可以填补缺失值、可以排序。

两个库的主要函数基本体现在数据的预处理中，从这里开始要意识到，你越来越接近需要统计学的地方了，当数据预处理之后，才到怎么做分析的地步（后面讲）

3、matpoltlib

很明确的说，80%的需求，excel可以满足。用python不是不行，优势是自由度更高，图表更接近、科研的样式；劣势是啥呢，不符合大部分工作场景，比如你有一组数据，做了个图，ppt发给老板，老板不满意，总不能自己写代码吧。一般都是把数据考进ppt或者excel可以直接在里面操作，效率更高。

闲话少说，我们开始

（1）创建空图表

Figure和subplot可以创建一个图表对象

fig = plt.figure()

ax1 = fig.add_subplot(2,2,1)

从这里开始就可以发布绘图命令，也就是把数据填入横纵坐标

（2）绘制图像

form numpy. import randnplt.plot(randn(50).csmsum(),'k--')_= ax1.hist(randn(100),bins=20,color = 'k',alpha = 0.3)ax2.scatter(np.arange(30),np.arange(30)+3*randn(30))

你要知道图像的所有参数是可控的，包括颜色、标记、线型、坐标轴、间距、刻度、图例、注释，应有尽有。

所以为什么说他更适合科研，因为论文可能就只需要几张图；但是在工作中，可能一天就要好几张图来，你没时间写那么快。可视化的内容，了解即可。

（3）了解图的种类

线形图：

series（np.random.randn(10).cumsum(),index =np.arange(0,100,10)）

柱状图：

data.polt(kind = ‘bar’,ax=axes[0],color=‘k’,alpha = 0.7)

直方图：hist(bins = 50)

饼图：plt.pie()

专题：数据聚合和分组运算

SQL里面有group by函数，python也可以做到，实际上，大部分基础的数据处理都属于分组运算，比如【每天】【所有城市】的订单，就是对日期和城市进行分组。不同的分组得到的结果就是指标在维度上的拆解。

事实上，python对数据的分组能力比sql要强大，只是在数据处理效率上弱一点，这就看你需要分组到什么地步，来决定你是不是需要把数据专门导出来用python处理

最基础的分组函数表示为：

假设数据组为两列指标data1&data2，维度为key1&ley2

group = df[‘data1’].groupby(dt[‘key’])

生成的group就是一个groupby对象，你可以理解为是一个准备好的分组器，然后需要配合各种聚合函数输出结果，

例如：

group.mean()

也可以连起来写

mean =df[‘data1’].groupby([df[‘key1’],df[‘key2’]]).mean()

一些常用的聚合函数如下：

专题：时间序列

时间序列在python可以概括为：时间函数处理+时间格式数据，充分描绘出时间序列的分布，加入各种运算，主要模块是：datetime、、calendar

比如当前的时间：now = datetime.now

datetime以毫秒形式储存时间，delta = datatime(2022,12,14) - datatime(2022,12,1)

时间函数也可以用字符串实现互相转化，

比如：value = '2022-12-24’

datetime.strptime(value,‘%Y-%m-%d’)

也可以用dateutil这个包中的parser.parse来解析日期，比如：

parse(‘2022-12-24’)

输出：datetime.datetime(2022,12,24,0,0)

datetime的格式定义