电子商务
世纪无双
专注与研究大数据环境下的搜索引擎开发和数据挖掘算法研究。熟悉各种常用的数据挖掘平台,如hadoop, spark, storm, vowpal_wabbit。了解各种常用的机器学习算法,如lsa, pLSA, LDA, LR, GBDT, random forest, svm。
展开
-
关于产品对象描述的思考
网页信息抽取,是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术,从海量网页库中抽取出结构化的有用信息(称之为记录Record)以及信息之间的关系。因此,就引入了两个问题?一个是如何度量有用的信息?另外一个是信息之间的关系什么确定?我们能不能用一种知识体系来刻画或界定呢? 前些日子, 刚好看了篇论文"Le原创 2008-05-01 11:55:00 · 715 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Det转载 2008-05-01 12:24:00 · 448 阅读 · 0 评论