用lxml跑一个简单的流程 3.0版本

最新推荐文章于 2020-06-08 19:47:22 发布

hchu

最新推荐文章于 2020-06-08 19:47:22 发布

阅读量392

点赞数

分类专栏： lxml 文章标签： 3.0 版本

本文链接：https://blog.csdn.net/weixin_40688956/article/details/78982477

版权

lxml 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

多进程抓取页面

导入第三方thread包，定义一个进程池
将抓取的一级页面放进进程池里
启动进程池，自定义用几个进程来执行函数
在进程池中引入函数，定义download函数，执行二级抓取数据
退出线程

# import 先导入内置的库，再导入第三方库
import time
import threading
from queue import Queue
import lxml.etree
import requests

START_URL= 'http://qianmu.iguye.com/2018USNEWS世界大学排名'
# 启动的线程数量
DOWNLOAD_LINE = 10
# 定义Queue，队列，保存等抓取的url
link_queue = Queue()
# 线程列表，保存Thread对象
threads = []
download_pages = 0


def fetch(url, raise_err=True):
    global download_pages
    try:
        # 使用requests抓取url
        r = requests.get(url)
        r.encoding = 'utf-8'
        # 每读取一个，加1，显示已经读取的数据
        download_pages += 1
        return r.text
    except Exception as e:
        # 如果报错则print出来
        print(e)
    else:
        # 如果没报错，则检查http的返回码是否正常
        if raise_err:
            r.raise_for_status()


def parse_university(html):
    selector = lxml.etree.HTML(html)
    title = selector.xpath('//*[@id="wikiContent"]/h1/text()')[0]
    # 打印大学名
    print(title)

    infobox = selector.xpath('//div[@class="infobox"]')[0]
    keys = infobox.xpath('./table//tr/td[1]/p//text()')
    cols = infobox.xpath('./table//tr/td[2]')
    values = [''.join(col.xpath('.//text()')) for col in cols]

    # 用列表的形式循环出keys, values
    for k, v in zip(keys, values):
        print('%s:%s'%(k, v))
    print('-' * 30)


# 线程执行这个函数，不退出，一直到link为空
def download():
    while True:
        # get阻塞方法
        link = link_queue.get()
        if link is None:
            break
        # 执行下载、解析操作
        parse_university(fetch(link))
        # 向队列发送完成任务的消息
        link_queue.task_done()
        print('remaining queue: %s' % link_queue.qsize())


if __name__ == '__main__':
    start_time = time.time()
    selector = lxml.etree.HTML(fetch(START_URL))
    links = selector.xpath('//*[@id="content"]/table/tbody/tr/td/a/@href')

    # 第一步，抓取第一个页面放进Q里面
    for link in links:
        # 加判断，如果链接有错，重新给附个链接
        if not link.startswith('http://'):
            link = 'http://qianmu.iguye.com/%s' % link
        link_queue.put(link)

    # 第二步，启动线程
    for i in range(DOWNLOAD_LINE):
        t = threading.Thread(target=download)
        t.start()
        # 把读入的内容
        threads.append(t)
    # 堵塞，前面的都执行完了之后，再执行他，然后退出程序
    link_queue.join()

    # 向队列发送DOWNLOADER_NUM个None，以通知线程退出
    for i in range(DOWNLOAD_LINE):
        link_queue.put(None)

    # 退出线程
    for t in threads:
        t.join()
    # 计算抓取的耗时
    cost_seconds = time.time() - start_time
    print('download %s pages in %.2f seconds'%(download_pages, cost_seconds))

hchu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用lxml跑一个简单的流程 3.0版本

多进程抓取页面导入第三方thread包，定义一个进程池将抓取的一级页面放进进程池里启动进程池，自定义用几个进程来执行函数在进程池中引入函数，定义download函数，执行二级抓取数据退出线程# import 先导入内置的库，再导入第三方库import timeimport threadingfrom queue import Queueimport lxml.etr
复制链接

扫一扫