搜索引擎技术
世纪无双
专注与研究大数据环境下的搜索引擎开发和数据挖掘算法研究。熟悉各种常用的数据挖掘平台,如hadoop, spark, storm, vowpal_wabbit。了解各种常用的机器学习算法,如lsa, pLSA, LDA, LR, GBDT, random forest, svm。
展开
-
如何提高低点击率的用户查询效果?
在搜索中,用户输入某个query,原创 2014-11-03 14:50:31 · 549 阅读 · 0 评论 -
语音助手为什么需要搜索?
国内语音助手的代表公司搜狗语音助手、灵犀语音助手原创 2014-11-03 14:19:41 · 1085 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Det转载 2008-05-01 12:24:00 · 448 阅读 · 0 评论 -
语音助手为什么需要推荐技术?
在分析语音助手的查询日志过程中,我们发现原创 2014-11-03 14:38:33 · 704 阅读 · 0 评论