今天2014百度校招(提前批):网页搜索部门。
不过基本上只要数据挖掘的人。
听网页搜索部门人介绍,
百度想做的 知识图谱。
利用现有的百度内容,同时还有购买的内容。数据清理,提取数据。建立知识库,同时还有知识之间的关系。
还有文本理解。
最终目的:基于语义的搜索。
输入搜索的问题,直接返回结果
对于用户的输入直接给出结果
如果真的完成了,感觉好多内容供应商基本上完蛋了,基本上不会去走他网站的流量。而是被百度存储了,实际给出结果。
后来去面试了
大概时间是一个小时吧;
(1)项目基本介绍
(2)写一个基本的排序算法
(3)大部分时间在这个上面,就是说给你一个 url ,以及url指向的内容,现在问题是当搜索的是xxx小公司是,往往出来的是sina,等门户网站关于这个小公司的内容,我问现在需要找出这个小公司主页。设计算法,找出url是公司实际的主页。
后来去面试了
基本上:
1,考了几个几个比较基本的算法,简单的排序
2. 给了一个开放性的题目,有很多小企业的主页,但是当你搜索小企业时,前几个搜索结果往往是出现门户网站中关于该小企业的新闻,现在有所有url,问你如何定位小企业主页,而不是出现其他的内容...