如何学习python数据分析?_如何学习python进行数据分析(1)

3、统计学理论应用,分析案例实战

在工作流程中,python是工具,主要作用是在【已有数据】的情况下,将【数据导入软件】,【写逻辑得出分析结果】,最后【可视化为图表和结论输出】

明确一点:python只是逻辑承接的工具,学会他并不能学会逻辑,相当于有剑没剑法,但剑法和剑缺一不可。

二、程序语言基础

程序语言基础是大一的必修课,非理工科的同学或许不接触(尤其是财会,商科),重要的学习【程序思维】,把电脑当成一个严谨的【执行人、工具、打工人】,用逻辑思维语句,通过交互界面让他输出你的想法。

1、输入输出

最基础的,当你在交互界面输出print的时候,系统会把你输入的输出出来

你说一句话,他就说一句话。你怎么说,他就怎么说。

print(1)

1

print(“Hello World”)

HelloWorld

a = 1

b = ‘runoob’

print(a,b)

1runoob

如果你有很多话想说,比如说一个文档,里面存了好多数据,那你就需要准备好excel、csv和txt文件,然后换一个函数比如read_csv 和read_table就可以把这些文档导入

data = pd.read_csv(‘文件路径/result.csv’,sep=‘,’)

print(data)

你的文件就到了python里

2、数据格式

对于计算机来说,所有【输入】都必须归类,数字不只是数字,有整数、;汉字,英文都是字符串;以及更近一步的,列表类型,map类型,元组类型。

不同的类型满足不同的需求、计算方式等

数据类型汇总:

数字:Int()整数、float()小数、bool()布尔类型、complex()复数

字符串(str) :包括:文字,符号,字母,特殊字符等

单引号,双引号,三单引号,三双引号括起来的都是字符串

多行打印:输出元素时换行

单行打印:在同一行输出

列表:带方括号格式,元素之间逗号分隔,元素可以是数字、字符或其他数据类型

例如:[(1, 2), ‘三’, ‘d’, {‘y’: 0}]

元组:半圆括号格式,元素可以是数字、字符或其他数据类型

例如:([1, 2], ‘三’, ‘d’, {‘y’: 0})

字典:大括号格式元素之间相互对应,查询功能,{key:value}key要求是不可变类型,value可以是任何数据类型(整形、字符串、列表、元组、字典),包括可迭代对象。不可变类型有:字符串、元组。

例如:{‘a’:1,‘b’:2}

不同的类型有不同的规则,正如同你知道1可以+2但是不可以+渭河,只有同类型才可以相互运算

3、定义变量

到这个阶段,你可以自己定义一些变量了(注意数据类型)

name = ‘渭河’

print(name)

prtint(‘类型’,type(name))

prtint(‘值’,name)

输出结果:渭河

类型 <class ‘str’>

值 渭河

工作里需要定义很多变量,比如让a = 0 ,让a = [],让他们等于一个空数组,用来计算、循环、储存各种数字和结果

4、算数运算符

这里就是最基础的逻辑,在上面你已经可以输入变量,定义变量,输出变量,链路已经ok了,现在就是说上面的:你要往上面加逻辑。

比如业务方给你提了一个需求:我要今天订单+昨天的订单

图片

5、

函数这两个字初中就学过了,输入一个x 等于一个 y。包括第一个print,包括我们说的算数运算符,背后都有源码写了一个函数,直接调用函数,就是调用背后的逻辑

举个例子,前面学习了 len() 函数,通过它我们可以直接获得一个字符串的长度。我们不妨设想一下,如果没有 len() 函数,要想获取一个字符串的长度,该如何实现呢?

n=0

for c in “http://www.nowcoder.com/link/pc_kol_bzwh”:

n = n + 1

print(n)>>>33

函数的本质就是一段有特定功能、可以重复使用的代码,这段代码已经被提前编写好了,并且为其起一个“好听”的名字。在后续编写程序过程中,如果需要同样的功能,直接通过起好的名字就可以调用这段代码。

下面演示了如何将我们自己实现的 len() 函数封装成一个函数:

#自定义 len() 函数

def my_len(str):

length = 0

for c in str:

length = length + 1

return length

#调用自定义的 my_len() 函数

length = my_len(“http://www.nowcoder.com/link/pc_kol_bzwh”)

print(length)

#再次调用 my_len() 函数

length = my_len(“http://www.nowcoder.com/link/pc_kol_bzwh”)

print(length)

在函数内实现加减乘除,比如计算出前两天的订单,前两年的订单,每天只需要调用函数即可

6、循环

循环是相对抽象的点,你就想象计算机不断的运行一次逻辑,这次逻辑可以递增,递减,的各种运行,来实现一些诸如【累计求和】这样的逻辑

Python中的循环语句有 2 种,分别是 while 循环和 for 循环

图片

add = “http://www.nowcoder.com/link/pc_kol_bzwh”

#for循环,遍历 add 字符串

for ch in add:

print(ch,end=“”)

运行结果为:

http://www.nowcoder.com/link/pc_kol_bzwh

我自己学的时候,其实比c来说更痛苦的是,这个“ch”他很不规范,一般在c里面就写ijk,好理解,实际上这里的ch就类比c里面的ijk,意思是有这么一个扫描机器人,对着“add”这个字符串扫过去,每扫一次记一个数,记到ch这个东西里,最后把它输出来。

循环可以做很多事,测试不同输入下(吧要输入的变成字符串,然后让程序遍历),函数的结果,然后输出结果(比如拟合的误差值,来直接判断哪个变量更合适)

以上,可以被认为是程序语言基础的部分,实际的基础还有很多,并且巩固上述知识点,有最基础的算法帮忙练习(比如实现累计求和,相加等)这些需要自己去补齐(例如if函数等,这个很好理解)

这里往下,我们开始python库里数据分析包的实践(其实主要就是调用函数)

二、数据分析python库实践

1、常用的库

库可以看做是一堆函数的集合,就像是一本,import 库名 就像是命令计算机打开这本字典

常用的库主要是三个,算上数据科学的可以有十个

分别是:

Pandas、Numpy(数据清晰、分析、探索、数组处理);Scikit-learn、TensorFlow、Keras(机器学习库)、Gradio(机器学习部署);SciPy、Statsmodels(统计专用库);matplotlib、Seaborn(可视化)

一般来说,学Pandas、Numpy、Plotly足够了

2、Numpy库

Numpy突出一个数组处理能力,你就把数组看成一个excel表格,在一个个单元格内储存着数据

结合上面的基础教程,当一个数据进来的时候,你应该准备好一个个箱子把数据装进去,这些动作涉及的函数就包括

(1)数组创建

图片

例如:


import numpy as npa = np.array([1,2,3,4])b = np.array([,'点赞','分享','求关注'])print(a)

数组之间可运算(参考线性代数的逻辑),数组可和数组进行加减乘除

选择数组间的数字,基本的索引和切片,转置(transpose),三角函数运算,皆可百度,你只要知道他如何使用,数学上对于数组的运算皆可实现

3、Pandas库

pandas库的优势在于:对齐各种不同类型的数据源、集成时间序列功能、灵活处理缺失数据、合并出现在其它数据库的关系型运算

说白了,比numpy更灵活,有时候只用pandas也可以满足需求

学习思路是:

(1)熟悉series、两个数据类型

(2)常用的索引方法和

图片

(3)索引、选取、计算和过滤逻辑学习思路如numpy

(4)介绍一些汇总统计可以利用dataframe去做,例如corr方法,cov方法

(5)处理缺失数据,包括dropna\fillna\isnull\notnull等函数

上述的两种库不要死记硬背函数,最好是记住他能做什么,比如可以处理数组,运算数组,切割、索引数组,可以填补缺失值、可以排序。

两个库的主要函数基本体现在数据的预处理中,从这里开始要意识到,你越来越接近需要统计学的地方了,当数据预处理之后,才到怎么做分析的地步(后面讲)

3、matpoltlib

很明确的说,80%的需求,excel可以满足。用python不是不行,优势是自由度更高,图表更接近、科研的样式;劣势是啥呢,不符合大部分工作场景,比如你有一组数据,做了个图,ppt发给老板,老板不满意,总不能自己写代码吧。一般都是把数据考进ppt或者excel可以直接在里面操作,效率更高。

图片

闲话少说,我们开始

(1)创建空图表

Figure和subplot可以创建一个图表对象

fig = plt.figure()

ax1 = fig.add_subplot(2,2,1)

做了那么多年开发,自学了很多门编程语言,我很明白学习资源对于学一门新语言的重要性,这些年也收藏了不少的Python干货,对我来说这些东西确实已经用不到了,但对于准备自学Python的人来说,或许它就是一个宝藏,可以给你省去很多的时间和精力。

别在网上瞎学了,我最近也做了一些资源的更新,只要你是我的粉丝,这期福利你都可拿走。

我先来介绍一下这些东西怎么用,文末抱走。


(1)Python所有方向的学习路线(新版)

这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

最近我才对这些路线做了一下新的更新,知识体系更全面了。

在这里插入图片描述

(2)Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

在这里插入图片描述

(4)200多本电子书

这些年我也收藏了很多电子书,大概200多本,有时候带实体书不方便的话,我就会去打开电子书看看,书籍可不一定比视频教程差,尤其是权威的技术书籍。

基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。

(5)Python知识点汇总

知识点汇总有点像学习路线,但与学习路线不同的点就在于,知识点汇总更为细致,里面包含了对具体知识点的简单说明,而我们的学习路线则更为抽象和简单,只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

(6)其他资料

还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西,但对于没有资源或者资源不是很好的学习者来说确实很不错,你要是用得到的话都可以直接抱走,关注过我的人都知道,这些都是可以拿到的。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值