大数据导论习题_大数据分析与挖掘课后习题参考答案

6500

5.

假设

12

个销售价格记录如下:

6,11,205,14,16,216,36,51,12,56,73,93

(

1

)

使用等深划分时,将其划分为四个箱,

16

在第几个箱?

(

2

)

使用等宽划分时,将其划分为四个箱,

16

在第几个箱?

(

3

)

利用等深分箱法,将其划分为

3

个箱,平均值平滑法进行平滑处理,第

2

个箱的取值为多少?

(

4

)

利用等宽分箱法,将其划分为

3

个箱,边界平滑法进行平滑处理,第

2

个箱内数据值为多少?

6.

取鸢尾花数据集(

http://www.ics.uci.edu/~mlearn/MLRepository.html

),利用

pyspark

中的

Bucketizer

函数,对四个数值型属性分别进行数据离散化。

7.

为了调查某个微信小程序受众人群分布情况,

可采用哪些抽样方法?哪种方

法效果更好?请分析原因。

8.

给定

m

个元素的集合,这些元素划分成了

k

组,其中第

i

组的大小为

𝑚𝑚

𝑖𝑖

。如

果目标是得到容量为

n

(

n

<

m

)

的样本,

下面两种抽样方案有什么区别?

(假

定使用有放回抽样)

(

1

)从每组随机地选择

𝑛𝑛

×

𝑚𝑚

𝑖𝑖

/

𝑚𝑚

个元素。

(

2

)从数据集中随机地选择

n

个元素(不考虑元素属于哪个组)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值