通过爬虫得到CVPR华人论文名字,作者,研究机构,网址

 论文爬取并整理到excel表中代码:

import requests
from lxml import etree
import openpyxl as op
if __name__ == '__main__':
    for k in range(4):
        #论文的网址:https://openaccess.thecvf.com/CVPR2022?
        url2 = f"https://openaccess.thecvf.com/CVPR2022?day=2022-06-2{k+1}"
        headers = {
            'User-Agent': 'Mozilla/5.0 ( Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84'
        }
        wb = op.Workbook()
        sheet = wb.active
        m = 2
        sheet['A1'] = "title"
        sheet['B1'] = 'name'
        sheet["C1"] = "pdf_url"
        page_text = requests.get(url=url2, headers=headers).text
        parser = etree.HTMLParser(encoding="utf-8")
        tree = etree.HTML(page_text, parser=parser)
        all = tree.xpath('//*[@id="content"]/dl/dt')
        j = 1
        for i in range(3,len(all),2):
            title = tree.xpath(f'//*[@id="content"]/dl/dt[{j}]/a/text()')[0]
            name = tree.xpath(f'/ html / body / div[3] / dl / dd[{i-1}] / form[1] / a/text()')[0]
            #论文pdf网址
            pdf = 'https://openaccess.thecvf.com/'+tree.xpath(f'//*[@id="content"]/dl/dd[{i}]/a[1]/@href')[0]
            j+=1
            # print(title)
            # print(name)
            # print(pdf)
            # print("====================")
            sheet[f'A{m}'] = title
            sheet[f'B{m}'] = name
            sheet[f'C{m}'] = pdf
            m+=1
        #我这将论文分成了四份,需要弄成一份的话把下面一行缩进一下即可
        wb.save(f'CVPR论文6月2{k+1}号.xlsx')
        print(f"6月2{k+1}号")

爬取效果:

 

 网址都是可以打开的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BTU_YC

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值