2013网易实习生招聘 岗位:数据挖掘工程师

2013网易实习生招聘 岗位:数据挖掘工程师 
一、问答题 
a) 欠拟合和过拟合的原因分别有哪些?如何避免?

欠拟合:模型过于简单;过拟合:模型过于复杂,且训练数据太少。
b) 决策树的父节点和子节点的熵的大小?请解释原因。 

父节点的熵>子节点的熵

c) 衡量分类算法的准确率,召回率,F1值。


d) 举例序列模式挖掘算法有哪些?以及他们的应用场景。

DTW(动态事件规整算法):语音识别领域,判断两端序列是否是同一个单词。

Holt-Winters(三次指数平滑法):对时间序列进行预测。时间序列的趋势、季节性。

Apriori

Generalized Sequential Pattern(广义序贯模式)

PrefixSpan

 

 

 二、计算题 
1) 给你一组向量a,b 
a) 计算二者欧氏距离 

(a-b)(a-b)T

即:

b) 计算二者曼哈顿距离 

2) 给你一组向量a,b,c,d
a) 计算a,b的Jaccard相似系数

 b) 计算c,d的向量空间余弦相似度 

c) 计算c、d的皮尔森相关系数

 即线性相关系数。

或者

 三、(题目记得不是很清楚) 
一个文档-词矩阵,给你一个变换公式tfij’=tfij*log(m/dfi);其中tfij代表单词i在文档f中的频率,m代表文档数,dfi含有单词i的文档频率。 
1) 只有一个单词只存在文档中,转换的结果?(具体问题忘记) 

2) 有多个单词存在在多个文档中,转换的结果?(具体问题忘记) 

3) 公式变换的目的?


四、推导朴素贝叶斯分类P(c|d),文档d(由若干word组成),求该文档属于类别c的概率,
并说明公式中哪些概率可以利用训练集计算得到。

 五、给你五张人脸图片。 
可以抽取哪些特征?按照列出的特征,写出第一个和最后一个用户的特征向量。

 六、考查ID3算法,根据天气分类outlook/temperature/humidity/windy。(给你一张离散型
的图表数据,一般学过ID3的应该都知道) 

a) 哪一个属性作为第一个分类属性? 

b) 画出二层决策树。 

七、购物篮事物(关联规则) 
一个表格:事物ID/购买项。 
1) 提取出关联规则的最大数量是多少?(包括0支持度的规则)

 2) 提取的频繁项集的最大长度(最小支持>0) 

3) 找出能提取出4-项集的最大数量表达式 
4) 找出一个具有最大支持度的项集(长度为2或更大) 

5) 找出一对项a,b,使得{a}->{b}和{b}->{a}有相同置信度。

 八、一个发布优惠劵的网站,如何给用户做出合适的推荐?有哪些方法?设计一个合适的系
统(线下数据处理,存放,线上如何查询?)


最后推荐一些资料、书籍和讲座给大家,供大家参考:

《编程之美》;
《剑指offer》;

《编程珠玑》;(这本书很经典,但是难度相对较大,建议先看编程之美和剑指offer,然后在读这本)
秒杀99%的海量数据处理面试题http://blog.csdn.net/v_july_v/article/details/7382693
《Cracking the Coding Interview: 150 Programming Questions and Solutions》,顺便贴个此本书的题解:http://hawstein.com/posts/ctci-solutions-contents.html,且其中文版《程序员面试金典》即将由图灵教育出版社出版;

IT笔试面试网站:http://www.dy1280.com


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值