动手学数据分析 task5

1、各模块作用?

  • Image 模块提供了同名的类用来表示PIL的图像。Image模块还提供了许多工厂(factory)函数,包块从文件加载图像的函数,以及创建新图像的函数。
  • numpy:支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
  • pandas 有两种数据类型:Series,DataFrame,pandas则是对上述数据类型的各类操作(基本操作、运算操作、特征类操作、关联类操作)
  • matplotlib:可视化图形工具
  • seaborn:是在matplotlib基础上面的封装,方便直接传参数调用

2、划分数据集的方法有哪些?
(1)留出法
“留出法”直接将数据集D划分为两个互斥的集合,一个为训练集S,一个为测试集T,即D=S∪T,S∩T=∅.在S上进行模型学习,然后用T来评估其测试误差,作为对泛化误差的估计。

(2)交叉验证法
“交叉验证法”先将数据集D划分为k个大小相同的互斥子集,即D=D1∪D2∪⋯∪Dk,Di∩Dj=∅(i≠j).其中每个子集Di都应尽量保持数据分布的一致性,即从D中通过分层采样得到。

(3)自助法
在留出法和交叉验证法中保留了一部分样本用于测试,但是我们希望模型是利用D训练出来的。因此,“自助法”是一个比较好的解决方法,它对数据集D进行采样产生新数据集D′每次从D中进行有放回的随机采样,取得样本放入D′中,直至D′ 的样本个数也为m.

3、为什么使用分层抽样,这样的好处有什么?
(1)分层抽样可以提高参数估计的精度。
(2)分层抽样不仅能对总体参数进行估计,而且能对各层(子总体)参数进行估计。
(3)便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的抽样方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值