pyppeteer实战

最新推荐文章于 2024-05-31 14:21:08 发布

踩坑填坑记录

最新推荐文章于 2024-05-31 14:21:08 发布

阅读量196

点赞数

分类专栏：学习笔记文章标签： python

本文链接：https://blog.csdn.net/import_hair/article/details/123763376

版权

学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

import logging
import asyncio
from pyppeteer import launch
from pyppeteer.errors import TimeoutError
from motor.motor_asyncio import AsyncIOMotorClient

#数据库操作
motor_connect_string = 'mongodb://localhost:27017'
momgodb_name = 'movie'
mongo_collection_name = 'data'

client = AsyncIOMotorClient(motor_connect_string )
db = client[momgodb_name]
collection =db[mongo_collection_name]

logging.basicConfig(level= logging.INFO,format='%(levelname)s:%(message)s')

index_url = 'https://spa2.scrape.center/page/{page}'
total_page = 10
timeout = 10
window_width,window_height = 1366,768
headless = False

browser,tap = None,None

async def init():
    global browser,tap
    browser = await launch(headless =headless,
                            args = [f'--window-size={window_width},{window_height}',
                            '--disable-infobars'])
    tap = await browser.newPage()
    
    
    await tap.setViewport({'width':window_width,'height':window_height})

async def scrape_index(url,selector):
    logging.info('爬取 %s',url)
    try:
        await tap.goto(url)
        await tap.waitForSelector(selector,options={'timeout':timeout*1000})

    except TimeoutError:
        logging.error('错误 %s',url)

async def scrape_page(page):
    """爬取详情页的url"""
    url = index_url.format(page=page)
    await scrape_index(url,selector = '.item .name')

async def parse_index():
    """解析列表页"""
    return await tap.querySelectorAllEval('.item .name','nodes => nodes.map(node => node.href)')

async def scrape_detail(url):
    """爬取详情页"""
    await scrape_index(url,selector = '.item .name')

async def parse_detail():
    """解析详情页"""
    url = tap.url
    name = await tap.querySelectorEval('.item .name h2','node=>node.innerText')
    catalogs = await tap.querySelectorAllEval('.categories button span','nodes => nodes.map(node => node.innerText)')
    cover = await tap.querySelectorEval('.cover','node=>node.src')
    score = await tap.querySelectorEval('.score','node=>node.innerText')
    drama = await tap.querySelectorEval('.drama p','node=>node.innerText')
    return {
        'url':url,
        'name':name,
        'catagories':catalogs,
        'cover':cover,
        'score':score,
        'drama':drama
    }

async def main():
    await init()
    try:
        for page in range(1,total_page+1):
            await scrape_page(page)
            detail_urls = await parse_index()
            for detail_url in list(detail_urls):
                await scrape_detail(detail_url)
                data = await parse_detail()
                await collection.update_one(
            {'name':data.get('name')},{'$set':data},upsert = True)


    finally:
        await browser.close()

if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

踩坑填坑记录

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyppeteer实战

import loggingimport asynciofrom pyppeteer import launchfrom pyppeteer.errors import TimeoutErrorfrom motor.motor_asyncio import AsyncIOMotorClient#数据库操作motor_connect_string = 'mongodb://localhost:27017'momgodb_name = 'movie'mongo_collection_name.
复制链接

扫一扫