【scikit-learn】用Python进行机器学习实验

最新推荐文章于 2024-07-30 19:12:01 发布

JasonDing1354

最新推荐文章于 2024-07-30 19:12:01 发布

阅读量4.2k

点赞数

分类专栏：【Machine Learning】文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JasonDing1354/article/details/41977535

版权

本文介绍了使用Python进行机器学习实验的过程，包括数据读取、预处理、选择合适的模型以及衡量性能指标。通过实例展示了如何用NumPy和SciPy处理数据，用逼近误差选择模型，并探讨了过拟合与欠拟合的问题。实验中对比了不同阶数曲线的拟合效果，强调了理解数据和正确划分训练测试集的重要性。

摘要由CSDN通过智能技术生成

概要

本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下：

读入数据并清洗数据

探索理解输入数据的特点

分析如何为学习算法呈现数据

选择正确的模型和学习算法

评估程序表现的准确性

读入数据 Reading the data

当读入数据时，你将面临处理无效或丢失数据的问题，好的处理方式相比于精确的科学来说，更像是一种艺术。因为这部分处理适当可以适用于更多的机器学习算法并因此提高成功的概率。

用NumPy有效地咀嚼数据，用SciPy智能地吸收数据

Python是一个高度优化的解释性语言，在处理数值繁重的算法方面要比C等语言慢很多，那为什么依然有很多科学家和公司在计算密集的领域将赌注下在Python上呢？因为Python可以很容易地将数值计算任务分配给C或Fortran这些底层扩展。其中NumPy和SciPy就是其中代表。
NumPy提供了很多有效的数据结构，比如array，而SciPy提供了很多算法来处理这些arrays。无论是矩阵操作、线性代数、最优化问题、聚类，甚至快速傅里叶变换，该工具箱都可以满足需求。

读入数据操作

这里我们以网页点击数据为例，第一维属性是小时，第二维数据是点击个数。

import scipy as sp
data = sp.genfromtxt('web_traffic.tsv', delimiter='\t')

预处理和清洗数据

当你准备好了你的数据结构用于存储处理数据后，你可能需要更多的数据来确保预测活动，或者拥有了很多数据，你需要去思考如何更好的进行数据采样。
在将原始数据（raw data）进行训练

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。