搜索引擎关键词排名爬虫,采集获取

3 篇文章 0 订阅
1 篇文章 0 订阅
# coding=utf-8
import threading, queue, time, urllib
from urllib import request
import work.baidu_pc as bd_pc


# 将所需要的数据塞入队列之中
urlQueue = queue.Queue()
lines=[]
with open('seo.txt', encoding='UTF-8') as f:
    for line in f:
        lines.append(list(line.strip('\n').split(',')))

for wd in lines:
    urlQueue.put(str(wd[0]))

def fetchUrl(urlQueue):

    while True:
        try:
            # 不阻塞的读取队列数据
            wd = urlQueue.get_nowait()
            i = urlQueue.qsize()
        except Exception as e:
            break
        print('Current Thread Name %s, wd: %s ' % (threading.currentThread().name, wd))
        # 将拿出的数据进行操作
        try:
            result = bd_pc.getOrder(wd, 'www.51seo.net')
            # 为了突出效果, 设置延时
            # time.sleep(1)
            print(result)
        except Exception as e:
            continue

if __name__ == '__main__':
    startTime = time.time()
    threads = []
    # 可以调节线程数, 进而控制抓取速度
    threadNum = 10
    for i in range(0, threadNum):
        t = threading.Thread(target=fetchUrl, args=(urlQueue,))
        threads.append(t)

    for t in threads:
        t.start()
    for t in threads:
        # 多线程多join的情况下,依次执行各线程的join方法, 这样可以确保主线程最后退出, 且各个线程间没有阻塞
        t.join()
    endTime = time.time()
    print('Done, Time cost: %s ' % (endTime - startTime))

Python和易语言写的关键词排名抓取,多线程批量抓取,需要的可以siliao

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值