爬虫之爬取中国移动采购与招标网

8 篇文章 0 订阅
5 篇文章 0 订阅




一、确认爬取目标

爬取中国移动采购与招标网

https://b2b.10086.cn/b2b/main/listVendorNotice.html?noticeType=2



二、尝试爬取

首先我使用开发者工具,尝试看一下,数据是怎么请求回来的。

然后就发现这个,

在这里插入图片描述

在这里插入图片描述

https://b2b.10086.cn/b2b/main/listVendorNoticeResult.html?ekp1APd1=5TLUwJWxAYSUQisKAQ7GQCmzeFYm3elSTJIbLwkENOZcE12UDTYQwQlfkHI060.eBM1uON79v8qI1LO7tF7F.X8OAzNv2UJzHC3c7mIn7kdv8uXX9oYb2fnQHKnadmc5g4UxDf3gtSPSVp2dTR.8w53vDV9zEmIFvtZEfuhjtWpy76pDtYbZyrwDAQu.ajmtBgS6V_te04Npxi.z7n29IOrW0vGx69gEODHLj7SpROqNSgrRnjg6m2C10.nxiPE3Ct1Z7l9prASgIZsjvRvPA4R7qrXjxPHyOQ8qjtk5cusVz6KcLLEq1C0M.iAxh1jFaI_71dvxIVG1Y8GMkyJLRfZdMqR486Fs8hElRevldHeA&TB2MFwna=4QzPraLfz28OIFVRtGW84.C9jpMGeku7LWPoPWDJ02_xrpYWLY.c2YCWGvQsQ.mQo3bNxDkTGTAZ2HyxEen9QeI0e0MV7lT6inRUqWDy47nRYhdG0hqTjvvznYpfB1ONw8X1VE43GQXkqRolOuJW0ShZrVaqEDLjOGaewpowVguQ

根据这个可以通过分析js代码,查看参数的生成方式。使用requests.post请求之后,发现请求失败。


改变策略,使用selenium来试试看,普通的selenium没有隐藏掉相关的信息,发现还是返回不了数据。

在这里插入图片描述




现在有两个方法可以解决,一是隐藏掉selenium的信息,二是使用pyppeteer库,这一次先使用pyppeteer来爬取这个网站的信息。




三、使用pyppeteer

这个库是puppeteer(node.js的一个库)的python版本,已经好久没更新了,之后可以使用node.js来实现,现在先使用pyppeteer来解决这个问题。

一些基本的语法,在上一篇博客中介绍了,有兴趣的可以去看看。

下面来尝试一下

import asyncio
from pyppeteer import launch


async def main():
    url = 'https://b2b.10086.cn/b2b/main/listVendorNotice.html?noticeType=2'
    browser = await launch(headless=False, ignoreDefaultArgs=['--enable-automation'])
    page = await browser.newPage()
    await page.goto(url)

    # 待提取数据

    input('输入随意字符退出:')

    await browser.close()
    
asyncio.get_event_loop().run_until_complete(main())

在这里插入图片描述



OK数据请求回来了,接下来就简单了,只需要把数据,拿出来就行了。

element = await page.querySelectorAll("tbody tr[class]")
for el in element:
    s1 = await el.querySelector("td:nth-child(1)")
    s1 = await (await s1.getProperty('textContent')).jsonValue()

    s2 = await el.querySelector("td:nth-child(2)")
    s2 = await (await s2.getProperty('textContent')).jsonValue()

    s3 = await el.querySelector("td:nth-child(3)")
    s3 = await (await s3.getProperty('textContent')).jsonValue()

    s4 = await el.querySelector("td:nth-child(4)")
    s4 = await (await s4.getProperty('textContent')).jsonValue()
    print(s1, s2, str(s3).strip(), s4)

在这里插入图片描述



使用点击,进入下一页

await page.click("#pageid2 > table > tbody > tr > td:nth-child(4) > a > span")

这样就可以进行爬取数据了,将爬取的数据存在csv中。



四、完整代码

import asyncio
from pyppeteer import launch
import pandas as pd


async def main():
    url = 'https://b2b.10086.cn/b2b/main/listVendorNotice.html?noticeType=2'
    browser = await launch(headless=False, ignoreDefaultArgs=['--enable-automation'])
    page = await browser.newPage()
    await page.goto(url)
	
    s = []
    n = 10
    # 10页
    for _ in range(n):
        element = await page.querySelectorAll("tbody tr[class]")
        for el in element[1:]:
            s1 = await el.querySelector("td:nth-child(1)")
            s1 = await (await s1.getProperty('textContent')).jsonValue()

            s2 = await el.querySelector("td:nth-child(2)")
            s2 = await (await s2.getProperty('textContent')).jsonValue()

            s3 = await el.querySelector("td:nth-child(3)")
            s3 = await (await s3.getProperty('textContent')).jsonValue()

            s4 = await el.querySelector("td:nth-child(4)")
            s4 = await (await s4.getProperty('textContent')).jsonValue()
            print(s1, s2, str(s3).strip(), s4)
            s.append([s1, s2, str(s3).strip(), s4])

        await page.click("#pageid2 > table > tbody > tr > td:nth-child(4) > a > span")
        await page.waitFor(1000)
	else:
        sl = pd.DataFrame(s)
    	sl.to_csv("test.csv",index=False)
        print("爬取完成")

    await browser.close()


asyncio.get_event_loop().run_until_complete(main())
  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力生活的黄先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值