面试--百度网页搜索部一面总结

1.树的遍历

深度、广度、前中后序

2.linux

VIM:文本编辑器;

AWK:awk '{pattern + action}' 或者 awk 'pattern {action}';一种编程语言,因其模式匹配语法而特别有用,通常用于数据检索和数据转换;一行分成数段操作。

GREP:从结果中选取内容,cut;

sed:sed [options] 'command' file(s),sed [options] -f scriptfile file(s) ;整行操作。

3.项目

(1)内容抽取(文章抽取[起止标签]、自动摘要[替换标签<*>,取前500])

(2)索引(中文二级hash+英文set)

(3)简单的web内容(GET、POST、COOKIE、SESSION、AJAX、JAVASCRIPT、框架)

(4)网络协议(百度检索框中输入检索词百度一下至返回结果)

百度一下-->GET方法得到url-->DNS解析出百度服务器地址-->将检索词送达百度服务器-->检索词分词得到关键词-->查询关键词索引得到命中网页-->命中网页排个序,返回top10内容--->网页再自动加载些信息

(5)网页优先抓取(广度优先,插入排序,链接多的网站优先抓)

转载于:https://www.cnblogs.com/siliconvalley/p/3167105.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值