爬虫:playwright+BeautifulSoup太好用了

简直太好用了!!

  • playwright:动态页面爬取,执行如页面导航、获取元素HTML这些功能,可用模仿操作行为
  • BeautifulSoup:解析静态页面,特点是可用按顺序解析HTML元素,如文章页面,一般很多都是一个段落一个<p></p>标签包裹的,中间还包括图片、表格等等。把通过playwright获取到的页面内容塞给BeautifulSoup,按顺序解析

来一个简单的示例:

  1. playwright获取动态页面
async def page_crawler(url: str, logger) -> (int, dict):

    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()
        await page.goto(url)

        # 获取要解析的HTML内容,这里也可用是一个page的全部元素
        info_html = await page.locator('div.con-bd ').inner_html()
        
        # 执行页面解析
        result = await process_element(info_html)
        
        return result 
  1. BeautifulSoup解析

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值