完成迅雷搜索网站需要哪些工作

 
1、 搜索服务器程序。
(1)       分词程序。中文,英文分词程序。由于许多软件的名称可能是中文,英文还有数字,一个好的分词程序对查询效果起到至关重要的作用。
评:中文分词程序非常多,中科院的分词程序是一个非常好的开源工具。但是根据需要,一般还是需要自己的分词程序。
(2)       索引查询。考虑索引放在多个服务器,多台服务器完成搜索任务。实时的更新多个服务器上面的索引应该怎么做?
评:很多搜索引擎使用开源的Lucene制作索引文件和查询程序。
(3)       结果排序。快速有效的排序非常困难。加入竞价排名需要考虑更多的问题。
(4)       敏感词过滤。搜索框的关键词提示,对错误关键词的纠正提示。相关查询词语推荐。
(5)       服务器的布置、管理、更新,维护工作。
2、 数据收集:通过一定的规则,或者说一定的爬行策略抓取网络上可以下载的资源。例如指定爬行某些质量高的网站网站。
(1)       分析下载资源的数据类型。例如书籍,电影,软件,卡通,漫画,音乐(歌词),图片等等类型。
评:通过下载一部分文件,分析文件属于什么类型。
(2)       分析哪些数据分布在不同的服务器。提供搜索有特色的下载服务。
(3)       由于网络上面需要下载的数据太多,需要数据收集的速度尽量快。不然获取的很多链接很快又会变成无效的链接。快速的增加链接,删除过去无用的链接是一个比较困难的问题。
(4)       分析非法的视频数据,例如色情的视频。通过视频的名称,视频文件的特征数据串可以做一些判断。
(a)       URL分析。分析URL是否是一个文件,超链接文字是否是文件的名称。
(b)       使用规则分析特定网站的下载链接
(c)       使用具有学习能力网页分析程序,分析文件的名称和下载文件。
 
3、 搜索下载工具
(1)       包括从多个服务器下载和BT下载两种方法。
(2)       根据下载资源,动态获取推荐的下载连接、图片、内容。需要服务器、数据库的配合。
(3)       Web下载工具。下载程序与web页面的通讯,估计是使用COM组件。
(4)       多线程下载程序,速度控制,断点续传。
(5)       通过Web页面代码启动下载工具。通过脚本调用com控件,再启动下载工具。
下载工具监视剪贴板。
4、 Web网站前台
(1)       网站的布局、美工、内容更新。用户评论。
(2)       网站编辑,负责内容编辑,推荐。例如电影,书籍。搜索网站页面更新速度较慢。内容编辑又待提高。
(3)       对每一个分类使用不同的网站布局和不同的管理。例如数据的推荐评论,电影的推荐评论。可能搜索电影的下载量比较大,电影的更新和专题做的比较好一些。
(4)       网站播放器。播放视频影片。需要对视频的存储,读取,播放工具。
(5)       下载速度记录。对下载链接的评论。
(6)       下载连接的页面生成。下载广告页面的生成。
(7)       搜索的网页布局显得有点凌乱。不知道有没有用户主动报告下载url的地方,类似百度贴吧的专题BBS。
(8)       网站发布工具,将网站发布为静态网页。
(9)       网站负载平衡工具。
 
5、 Web网站后台管理
(1)用户管理
(2)网站后台数据管理
(3)下载数据统计工具。关键词查询次数统计,下载次数统计。
 
6、 WAP网站
(1)下载手机相关的软件,手机游戏。
7、 合作
(1)       与相关的网站合作。例如软件、视频、电子图书、音乐下载网站。
(2)       为其他网站提供接口。
 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值