Python机器学习·微教程_#不同算法的比较,各算法使用了默认参数from pandas import read_csvfrom(1)

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Python全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Python知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024c (备注Python)
img

正文

该教程共分为11小节。在这个教程里,你将学会:

  • 如何处理数据集,并构建精确的预测模型
  • 使用Python完成真实的机器学习项目

这是一个非常简洁且实用的教程,希望你能收藏,以备后面复习!

接下来进入正题~
在这里插入图片描述

这个微课程适合谁学习?

开始之前,要搞清楚该教程是否属于你的菜。

如果你不符合以下几点,也没关系,只要花点额外时间搞清楚知识盲点就能跟上。

  • 熟悉python语法,会写简单脚本。这意味着你在此之前接触过python,或者懂得其它编程语言,类C语言都是可以的。
  • 了解机器学习的基本概念。基本概念包括知道什么是监督学习、非监督学习、分类和预测的区别、交叉验证、简单算法。不要被这些吓到了,并非要求你是个机器学习专家,只是你要知道如何查找并学习使用。

所以这个教程既不是python入门,也不是机器学习入门。而是引导你从一个机器学习初级开发者,到能够基于python生态开展机器学习项目的专业开发者。

教程目录

该教程分为12节

第1节:下载并安装python及Scipy生态

第2节:熟悉使用python、numpy、matplotlib和pandas

第3节:加载CSV数据

第4节:对数据进行描述性统计分析

第5节:对数据进行可视化分析

第6节:数据预处理

第7节:通过重采样进行算法评估

第8节:模型比较和选择

第9节:通过算法调整提高模型精度

第10节:通过集合预测提高模型精度

第11节:完善并保存模型

希望大家在学习的过程中能够自主寻找解决困难的办法,网上资源很丰富,这也是自我提升很关键的一步。当然也可以在评论区留言哦!

第1节:下载并安装python及Scipy生态

这一节内容比较简单,你需要下载python3.6并安装在你的系统里,我用的win10系统。

接着要安装Scipy生态和scikit-learn库,这里推荐使用pip安装。

简单介绍一下Scipy,Scipy是一个基于python的数学、科学和工程软件开源生态系统。包含一些核心库:numpy、scipy、pandas、matplotlib、ipython、sympy

如果你不想这么麻烦,那么也可以使用傻瓜式一条龙安装-Anaconda,这里面预装了python及一百多个库。

安装好后,就可以在命令行键入“python”,就可以运行python了。

看一下python及各个库的版本:

# Python version
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))

如果没有报错,那么安装环节就成功了。

第2节:熟悉使用python、numpy、matplotlib和pandas

第一步,你要能够读写python脚本。

python是一门区分大小写、使用#注释、用tab缩进表示代码块的语言。

这一小节目的在于练习python语法,以及在python环境下如何使用重要的Scipy生态工具。

包括:

  • 使用python列表
  • 使用numpy array数组操作
  • 使用matplotlib简单绘图
  • 使用pandas两种数据结构Series和DataFrame
# 导入各个库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

myarray = np.array([[1, 2, 3], [4, 5, 6]]) # 使用numpy数组
rownames = ['a', 'b']
colnames = ['one', 'two', 'three'] # 使用列表操作
mydataframe = pd.DataFrame(myarray, index=rownames, columns=colnames) #生成DataFrame
print(mydataframe)

mp = plt.plot(myarray) # 使用matplotlib绘制简单图表
plt.show() # 显示图像

第3节:加载CSV数据

机器学习算法需要有数据,这节讲解如何在python中正确地加载CSV数据集

有几种常用的方法供参考:

  • 使用标准库中CSV的CSV.reader()加载
  • 使用第三方库numpy中的numpy.loadtxt()加载
  • 使用第三方库pandas中的pandas.read_csv()加载

这里使用pandas来加载数据集,数据集使用网上数据Pima Indians onset of diabetes,你也可以使用本地数据练习

# Load CSV using Pandas from URL
import pandas # 导入pandas库
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pandas.read_csv(url, names=names) # 读取数据
print(data.head(5)) # 打印数据集前5行

在这里插入图片描述

第4节:对数据进行描述性统计分析

导入数据后,第一步要做的是理解数据。

对数据理解的越透彻,建立的模型也会越精确。这里就要提到描述性统计分析,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

有以下几点操作:

  • 使用head()和tail()函数查看数据样本
  • 使用shape属性查看数据规格
  • 使用dtypes属性查看每个变量的数据类型
  • 使用describe()函数查看数据描述
  • 使用corr()函数计算各个变量之间的相关性

依然使用pima数据集,接上一节读取数据后:

# Load CSV using Pandas from URL
import pandas # 导入pandas库
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pandas.read_csv(url, names=names) # 读取数据

head_5 = data.head(5) # 查看前5行
print(head_5)
tail_5 = data.tail(5) # 查看后5行
print(tail_5)
shape_ = data.shape # 查看数据规格,即多少行多少列
print(shape)
dtypes_ = data.dtypes # 查看每个变量的数据类型
print(dtypes_)
corr_ = data.corr() # 查看各个变量之间的相关性 
print(corr_)
description = data.describe() # 查看数据描述
print(description)

在这里插入图片描述
数据描述结果

第5节:对数据进行可视化分析

仅仅是做描述性统计无法直观地理解数据,python提供了丰富的可视化工具,帮助展示数据。这一小节就是对上节数据集进行可视化描述,让你一目了然。

有以下几点操作:

  • 使用hist()方法创建每个变量的直方图
  • 使用plot(kind=‘box’)方法创建每个变量的箱图
  • 使用plotting.scatter_matrix()方法创建矩阵散点图
# Load CSV using Pandas from URL
import pandas # 导入pandas库
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pandas.read_csv(url, names=names) # 读取数据

import matplotlib.pyplot as plt # 导入绘图模块
data.hist() # 直方图
data.plot(kind='box') # 箱图
pd.plotting.scatter_matrix(data) # 矩阵散点图
plt.show() # 展示图表



**一、Python所有方向的学习路线**

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

![img](https://img-blog.csdnimg.cn/1d40facda2b84990b8e1743f5487d455.png)  
![img](https://img-blog.csdnimg.cn/0fc11d4a31bd431dbf124f67f1749046.png)

**二、Python必备开发工具**

工具都帮大家整理好了,安装就可直接上手!![img](https://img-blog.csdnimg.cn/ff266f529c6a46c4bc28e5f895dec647.gif#pic_center)

**三、最新Python学习笔记**

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

![img](https://img-blog.csdnimg.cn/6d414e9f494742db8bcc3fa312200539.png)

**四、Python视频合集**

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

![img](https://img-blog.csdnimg.cn/a806d9b941c645858c61d161aec43789.png)

**五、实战案例**

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。![img](https://img-blog.csdnimg.cn/a353983317b14d3c8856824a0d6186c1.png)

**六、面试宝典**

![在这里插入图片描述](https://img-blog.csdnimg.cn/97c454a3e5b4439b8600b50011cc8fe4.png)

![在这里插入图片描述](https://img-blog.csdnimg.cn/111f5462e7df433b981dc2430bb9ad39.png)

###### **简历模板**![在这里插入图片描述](https://img-blog.csdnimg.cn/646863996ac44da8af500c049bb72fbd.png#pic_center)




**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python)**
![img](https://img-blog.csdnimg.cn/img_convert/f0e7a0ca5e7766c58e8d81f53c2b52b3.png)

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
img-blog.csdnimg.cn/646863996ac44da8af500c049bb72fbd.png#pic_center)




**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python)**
[外链图片转存中...(img-RXlz3Qes-1713040006611)]

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值