【scikit-learn】用Python进行机器学习实验

本文介绍了使用Python进行机器学习实验的过程,包括数据读取、预处理、选择合适的模型以及衡量性能指标。通过实例展示了如何用NumPy和SciPy处理数据,用逼近误差选择模型,并探讨了过拟合与欠拟合的问题。实验中对比了不同阶数曲线的拟合效果,强调了理解数据和正确划分训练测试集的重要性。
摘要由CSDN通过智能技术生成

概要

本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下:

  1. 读入数据并清洗数据
  2. 探索理解输入数据的特点
  3. 分析如何为学习算法呈现数据
  4. 选择正确的模型和学习算法
  5. 评估程序表现的准确性

读入数据 Reading the data

当读入数据时,你将面临处理无效或丢失数据的问题,好的处理方式相比于精确的科学来说,更像是一种艺术。因为这部分处理适当可以适用于更多的机器学习算法并因此提高成功的概率。

用NumPy有效地咀嚼数据,用SciPy智能地吸收数据

Python是一个高度优化的解释性语言,在处理数值繁重的算法方面要比C等语言慢很多,那为什么依然有很多科学家和公司在计算密集的领域将赌注下在Python上呢?因为Python可以很容易地将数值计算任务分配给C或Fortran这些底层扩展。其中NumPy和SciPy就是其中代表。
NumPy提供了很多有效的数据结构,比如array,而SciPy提供了很多算法来处理这些arrays。无论是矩阵操作、线性代数、最优化问题、聚类,甚至快速傅里叶变换,该工具箱都可以满足需求。


读入数据操作

这里我们以网页点击数据为例,第一维属性是小时,第二维数据是点击个数。

import scipy as sp
data = sp.genfromtxt('web_traffic.tsv', delimiter='\t')

预处理和清洗数据

当你准备好了你的数据结构用于存储处理数据后,你可能需要更多的数据来确保预测活动,或者拥有了很多数据,你需要去思考如何更好的进行数据采样。
在将原始数据(raw data)进行训练

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值