2020-数据挖掘面试题

1. 大数据方向

1.1 hive 的技巧:

     小表放在前面,大表放在后面,这叫 mapjoin,与其对应的是 common join

1.2 当出现 数据倾斜,怎么解决

    a.出现数据倾斜的原因: 在map阶段相同的key 会放在一个reducer中,此时可以说一下 shuffle

    b.如何解决? 可以通过增加随机数,让相同的key 分配到不同的reduce上;也可以通过其它方法

https://blog.csdn.net/anshuai_aw1/article/details/84033160

2. 机器学习方向

2.1  训练网络loss出现Nan解决办法?

https://zhuanlan.zhihu.com/p/89588946

2.2  如果模型训练的时候,数据有1000W,而向量维度只能设置为256,大了就内存溢出了,应该怎么办?

      我只回答了一个方面:可以 多个finetune去训练,但是感觉面试官不太满意,欢迎补充,感谢

      正确答案应该是:mini-batch的方式

2.3 

3. 数据结构方向:

3.1 python dict 和 java 里面的hashmap 底层是如何存储的?

      HashMap由数组和链表来实现对数据的存储 

     数组的优势是:查找快,插入慢;链表的优势是 插入删除快,查找慢。

    后续也有把红黑树替换链表的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值