![]() |
|
![]() |
2009/12/2 张高崇 <zhanggc0...@gmail.com>
> 请大家帮帮忙, 在线等
-- > 2009/12/2 张高崇 <zhanggc0...@gmail.com> > 最近公司要求做一个网络爬虫,现在我采用的是线程池加内存池,并做了3个队列, 一个队列放还没下载的url, 一个放已经下载好的url, 选择百度博客的原因只为更快的CRUD思维上的碎片 |
![]() |
最好采用生产者/消费者模式来做 2009/12/2 jrckkyy <jrck...@gmail.com> blog:http://www.i7xh.com Twitter:http://twitter.com/i7xh |
![]() |
2009/12/2 张高崇 <zhanggc0...@gmail.com>
> 最近公司要求做一个网络爬虫,现在我采用的是线程池加内存池,并做了3个队列, 一个队列放还没下载的url, 一个放已经下载好的url,
-- > 最后放失败的url, > 语言是用c作的。没有用别的库。请教大虾们一个问题, 从还没下载的队列中取出一个url后, 线程在生成了一个request后, socket > 应该设计成什么模式? > 共用一个socket 还是 和线程池一样, 设计一个socket的队列, 每次要发送请求的时候, 从队列中取出一个socket, 然后发送? > 搞的我焦头烂额。。谢谢了 blog:http://www.i7xh.com Twitter:http://twitter.com/i7xh |
![]() |
对的, 我现在就是用的 生产者, 消费者的模式来做的, 比如, 一个线程 从队列中取出一个url, 要发一个请求给服务器, 那么 发轻松的socket 第2:设计一个socket 队列(不知道可行不可行, 一台电脑), 主线程轮询url 队列, 如果有url, 唤醒线程池中的一个线程, 请大家帮忙, 如果是第2种, socket 该如何实现。。。谢谢了 2009/12/2 xi heng <ixh.xih...@gmail.com> |
![]() |
2009/12/2 张高崇 <zhanggc0...@gmail.com> blog:http://www.i7xh.com Twitter:http://twitter.com/i7xh |
![]() |
![]() |
前阵子正好自己做了一个类似的系统,说说我的架构于实现吧
一整套的框架:一个主要的总控服务器MasterServer,一系列网页爬虫服务器HTTPSpiderServer,一系列网页分析服务器 On 12月3日, 上午10时07分, 张高崇 <zhanggc0...@gmail.com> wrote: |
![]() |
![]() |
crawl - a small and efficient HTTP crawler 用c写的一个 ,Berkeley db 和libevent,自己在 2009/12/3 SevenCat <bastet.w...@gmail.com> |
![]() |
![]() |
![]() |
![]() |
![]() |