初学爬虫的收获———neurips网站的论文题目爬虫

用到的库:BeautifulSoup; pandas;  bs4;Workbook

刚开始面临的问题:

1.不能准确定位到标签项,一直在转悠呢就是找不到,这样的情况可以选择直接print出来你的结果,如果是[]空的那肯定是错了,再找找。

2.标签找对了,输出的信息是一串串信息,太杂了,需要只把你需要的信息拿出来怎么办?我的办法是切片就行[:]直接切片操作。

3.到这里已经爬到了,但是没有保存到电脑,我刚开始一直无法保存,突然发现自己的循环写错地方了,需要把with open()写在最前面才可以写数据功能。

4.虽然大佬看我的代码太LOW了,或者看起来很简单,但是实际操作总会遇到问题,如果你和我一样你可以借鉴我的去自己动手试试。

import requests, bs4
from bs4 import BeautifulSoup
from openpyxl import Workbook
with open("book.csv","w",encoding="utf-8",newline="") as f:  #这个是写数据的代码
    page = 2010
    while (page < 2022):
        url = "https://proceedings.neurips.cc/paper_files/paper" + "/" + str(page)  #网址
        print(url)
        res = requests.get(url).text #获取页面html源码
        soup = BeautifulSoup(res, 'lxml') #通过BeautifulSoup解析页面
        list=soup.find_all('li',class_='none')[:] #获取列表的页面
        page += 1
        for res1 in list:
                list1 = (res1.find_all(title="paper title")[0]) #定位到我需要的地方
                print(list1.string) #需要转为string类型的存储
                f.write(list1.string) #写数据
                f.write("\n") #这是为了换行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值