发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: 搜索引擎工程师的7种武器
发信站: 水木社区 (Sat Mar 22 09:23:09 2008), 站内
precomputing:offline/online structure,indexing,dp等都属于这个范畴
representing: 数据结构,问题简化
distributing: 复杂计算分解
mirroring: 大量计算需求的均衡处理。
caching: 磁盘和内存,访问模型等
+
architecture: 完美的体系架构
pratical tricks: 现实的小技巧
以上是我认为一个搜索引擎工程师需要具备的几个条件,或者解决问题时需要考虑的方面。
大家认为呢?
我知道这个坑很烂,但确属我近来心得总结。和大家分享一下。。。要是有人去面试,可以从这7个方面谈,肯定很唬人。
-----------------------
发信人: mo7 (Moqi), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Sat Mar 22 21:33:50 2008), 站内
数据处理 data processing?
【 在 babel (烧刀子) 的大作中提到: 】
: dp是什么?
-----------------------
发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Sat Mar 22 22:07:55 2008), 站内
举个例子吧
网上看到这样个文章,去某搜索引擎公司面试
http://www.netfetch.cn/netfetch/article.asp?id=527
"是在100w个数中找最大的前100个数,我这个题目上次讨论过,用小根堆加线性扫
描作,应该是比较快的",--这是他的解答
这个问题显然就没有回答到最佳。如果考虑distributing.
那么为什么不能把100万个数,分成100分,每份1万个数,在1万个数中用堆挑最大的100个数,然后在把100份的答案merger到一起呢?
进一步如果能把IO和计算重叠起来,整个过程并行处理,效果更加,这就属于other tricks的范畴了
------------------------
发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Mon Mar 24 13:53:32 2008), 站内
【 在 semibookworm (劣币驱逐良币) 的大作中提到: 】
: 标 题: Re: 搜索引擎工程师的7种武器
: 发信站: 水木社区 (Mon Mar 24 12:42:26 2008), 站内
:
: data mining/NLP等会在搜索引擎整体中起到什么样的作用呢?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这个给researcher搞
: 看了这些描述,感觉搜索引擎平台性能更重要呀
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这个是工程师的地盘。。。
:
--------------------------------------
发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: Re: 搜索引擎工程师的7种武器
发信站: 水木社区 (Mon Mar 24 14:59:35 2008), 站内
简言之,工程就是多快好省,廉价,成熟,快速,是工程的手法。