twisted开发分布式任务调度爬虫


满足需求:爬虫减少重复数据、相似数据。

                 数据检索效率要高


具体方案:

1:使用向量夹脚余弦来计算文本间的相似度,大于80%可认为数据相似度过高,不采集。

2:使用elasticsearch进行数据invert index。提高查询速度。支持分布式,可拓展。

3:使用gearman、或者twisted自己编写任务调度服务器。


twisted服务器控制器controler, 和爬虫节点 crawler_node

controler负责爬虫任务的存储,管理,分发

crawler_node爬虫节点


具体实施:

      elasticsearch,使用smartcn中文分词器,利用es的自身的排序结果,先过滤一遍最相似的数据文档,再使用向量夹脚余弦进行计算。

      twisted 控制器服务器,将有任务队列,任务添加入口,任务分配入口,使用post请求。并有数据存储入口。

     twisted crawler node,多线程爬虫。


使用到的python模块。pyes,twisted

定义队列

class CrawlerTaskBuffer:

    def __init__(self, max_queue_size) :
        self.tasks=[]
        self.max_queue_size=max_queue_size

    def isFull(self) :
        size=0
        size=len(self.tasks)
        return size>=self.max_queue_size

    def isEmpty(self) :
        return len(self.tasks)==0

    def getTask(self) :
        if len(self.tasks)==0:
            task=None
        else :
            task=self.tasks.pop()
        return task

    def addTask(self, task) :
        ret=True
        self.tasks.append(task)
        return ret

    def pushbackTask(self, task) :
        ret=True
        self.tasks.insert(0,task)
        return ret


controler 控制服务器


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yinxingpan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值