OpenAccessLibrary 网站简单爬取

最新推荐文章于 2022-09-01 11:18:22 发布

the_power

最新推荐文章于 2022-09-01 11:18:22 发布

阅读量1.7k

点赞数

分类专栏： python Web 杂项文章标签： python 爬虫 scrapy requests

本文链接：https://blog.csdn.net/the_power/article/details/112739373

版权

本文介绍了如何使用Python爬虫技术，特别是Scrapy和Requests库，来爬取OpenAccessLibrary网站上岩土力学与工程学报的相关内容。通过给出的代码示例，展示了具体的爬取流程。

摘要由CSDN通过智能技术生成

目标

目标网站：Open Access Library
地址：https://www.oalib.com/
在这里插入图片描述目标爬取内容
https://www.oalib.com/journal/3174/1 岩石力学与工程学报内容

代码

import requests
import time
from scrapy import Selector

class OalibSpider:
    """
    1、构造分页的url
    https://www.oalib.com/journal/3174/1
    https://www.oalib.com/journal/3174/2

    2、抓取每一个分页中论文的url
    3、抓取每一篇论文，解析论文内容
    """
    def __init__(self):
        self.page_urls = ['https://www.oalib.com/journal/3174/{}'.format(i) for i in range(1,5)]
    def parse_page(self, page_url):
        """
        解析每一个分页，获取当前分页中论文的url
        :param page_url:
        :return:
        """
        resp = requests.get(page_url)
        root = Selector(

最低0.47元/天解锁文章

the_power

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
OpenAccessLibrary 网站简单爬取

目标目标网站：Open Access Library地址：https://www.oalib.com/目标爬取内容https://www.oalib.com/journal/3174/1 岩石力学与工程学报内容代码import requestsimport timefrom scrapy import Selectorclass OalibSpider: """ 1、构造分页的url https://www.oalib.com/journal/3174/1
复制链接

扫一扫

专栏目录