机器学习之scikit-learn初识

本文介绍了使用Python的scikit-learn库进行机器学习的初步步骤,包括数据加载、数据标准化、特征选取以及一系列常见的机器学习算法如逻辑回归、朴素贝叶斯、K-最近邻、决策树和支持向量机。同时,文章还提到了如何通过scikit-learn优化算法参数,以提高模型性能。
摘要由CSDN通过智能技术生成

上了一门机器学习课,实践平台老师推荐了Python和scikit-learn库。scikit-learn库包含有完善的文档和丰富的机器学习算法,在官方文档上每种算法都有讲解和应用示例(简直堪比老师课上的PPT)。

于是调查了一下这个库,目的是学习下它怎么用。


数据加载

第一步自然是数据加载,可以在UCIMachine Learning Repository网站上load,这个网站是个公开的机器学习数据集库,资源来自各种学校各种单位各种实验室各种数据库的贡献。数据集都不大,可以用来练习ML算法。

python是个强大的东西,我们可以直接用urllib从网站上load数据,再用numpy的函数加载:

(这里下的是经典的鸢尾花数据集,共150个data,分3类,每类50例,每例4个属性和1个类别标签)

import numpy as np
from urllib import request

# UCI dataset url
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
raw_data = request.urlopen(url)
x = np.loadtxt(raw_data, delimiter=",", usecols=(0,1,2,3))
raw_data = request.urlopen(url)
y = np.loadtxt(raw_data, delimiter=",", usecols=(4), dtype=str)

注:raw_data是网页请求的response内容,只能读取一次,所以y要再request一次。若想一次读取就要把data存到本地文件再加载。

# UCI dataset url
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
raw_data = request.urlopen(url)
page = raw_data.read()
page 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值