百度网页搜索部实习生面试

      这次面的是百度的网页搜索部的实习,下午2:00开始到下午4点半多结束。一共三面,一面和二面是技术面,三面是HR面,但是二面和三面的面试官是一个,本来二面的面试官让我等一下的,然后去找HR,但是回来的时候还是他。

     说说面了什么吧!一面面试官人很和善,笑眯眯的,开始先让我做了一个自我介绍。然后看我的简历,根据简历问,因为我写的分类聚类算法较多,所以让我说说自己知道的分类算法和聚类算法有哪些,具体说一下步骤是怎样的。以为这些自己掌握还挺好,说了不少算法,然后让我写了一个不能被实例化的类的代码,我对C++有点生疏,就说是实现一个virtual的纯虚类,这样就不能被实例化了,但是面试官说子类也不可以对其实例化,我就不知道了,直接说不太会。

    二面面试官上来就是一道实际题。我有一个学校的门口的学生流量,假设每分钟都有其统计数据,对将来短期间内的学生流量做预测! 这个问题我刚开始说了一个牛顿拟合的方法来做,但是后来想想这种方法不应该用在这个问题上,接下来我就说利用之前的大量数据对现阶段数据做预测就好了,中间还问了批梯度下降的推导,和列出影响学生流量的因素有哪些。。。中间围绕这个问题问了很多细节的东西。然后,让我写了一个快速排序的算法。

     三面不是结束面了,说了说实习的时间问题,他要求是半年以上,我说可以,问我有没有问题等等,最后说最快能几号去实习,说越早越好,我说要两个星期之后才可以,我要找住的地方,还要将实验室的东西做一个总结才可以出来实习。然后,就结束了,说是HR会在两三天之内给我电话,跟我要具体的入职时间。

K风是由Kwindsoft自主研发的专业网页搜索引擎系统,拥有先进的智能分析和海量数据检索技术,核心由多线程采集系统、智能分析系统、海量索引系统、全文检索系统四大分构成。系统采用专业级的搜索引擎系统架构,支持海量数据毫秒级全文检索。主要面向大中型行业搜索引擎、地方搜索引擎、专类信息搜索引擎等应用领域设计的专业全文检索产品,为用户提供海量数据全文检索应用的理想解决方案。 K风网页搜索引擎系统 2.2 SP5 版本主要改进: 2.2版本主要改进:改进索引系统读写性能,提高约10倍的索引速度; SP5:修正改进搜索算法; SP4:修正、优化分核心程序; SP3:优化检索流程、修复程序错误; SP2改进:修正检索组件错误引起的检索速度慢问题,大大提高检索速度; SP1改进:增加哈希值长度,基本能达到100%采集,全面爬行整站网页、增加搜索风云榜功能;; 功能特点: 多线程网络蜘蛛 网页定向采集 多语言网页编码自动识别 哈希表网页去重 智能网页正文抽取 基于词库的智能中文分词 中文分词词库管理 海量数据毫秒级全文检索 缓存技术 网页快照 高级搜索 竞价排名 网络蜘蛛网络蜘蛛采用多线程并发采集网页,结合高效的采集机制和策略署,最大限度提高网页采集的效率。支持网页定向采集,垂直搜索引擎提高数据质量和相关度的关键技术,用户可以自定义采集规则针对特定网页进行采集。支持多种动态和静态网页类型采集,多语言网页编码自动识别。采用哈希表网页去重技术,具有高性能、低系统占用的特点,使网络蜘蛛高效稳定运行。支持单个或批量网站采集、自动采集、自动更新功能。 正文抽取 智能网页正文抽取技术,它的作用是把一个网页的主题中心内容抽取并把与该网页主题无关的信息(广告、导航、版权等非网页正文内容信息)过滤。这项技术有效提高网页信息采集的质量和检索相关度,智能自动识别、准确网页正文抽取,准确率达到95%以上。 中文分词 基于词库的智能中文分词技术,支持中英文切分、中文简繁字体转换、全角半角转换、中文姓名识别等多项智能分析技术。用户可以根据自己的应用需要扩充和维护词库,以达到最佳的分词效果。 全文检索 采用海量数据索引系统架构和先进的全文检索算法技术,结合高效的检索优化策略,支持海量数据毫秒级检索速度和多用户并发检索。高级搜索支持自定义检索方式,满足用户不同的检索需求。采用高效的缓存技术策略提高系统的稳定性和负载能力、减轻系统负担,缓存数据根据特定的条件自动更新。 适用对象 适用于企业、政府机构、学校等内网站群组或Internet网站群组建立网页搜索引擎; 适用于各行各业领域网站群组建立行业网页搜索引擎; 适用于省、市、区等地方网站群组建立地方网页搜索引擎;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值