Python：爬虫爬取 CSDN 博客

最新推荐文章于 2024-06-24 14:19:29 发布

显魄-Simple

最新推荐文章于 2024-06-24 14:19:29 发布

阅读量2.6k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_33811662/article/details/81029498

版权

首先需要安装 Requests-HTML，使用

pip3 install Requests-HTML

或：

pip3 install requests-html

注意：Linux 系统注意切换最高权限模式。
下面上代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from requests_html import HTMLSession


def parse_data(url):
    all_parse = HTMLSession().post(url).html.find(".article-item-box")
    if not len(all_parse):
        raise Exception("End Load!")
    return [{"title": item.text.split("\n")[0][2:], "link": item.links.pop()} for item in all_parse]


def get_all_data(url):
    suffix = "/article/list/{}"
    all_data = list()
    try:
        index = 1
        while True:
            this_data = parse_data(url + suffix.format(index))
            print(index)
            all_data.extend(this_data)
            index += 1
    except Exception as e:
        print(e)
    return

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

显魄-Simple

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python：爬虫爬取 CSDN 博客

首先需要安装 Requests-HTML，使用 pip3 install Requests-HTML或：pip3 install requests-html注意：Linux 系统注意切换最高权限模式。下面上代码：#!/usr/bin/python# -*- coding: UTF-8 -*-from requests_html import HTMLSession...
复制链接

扫一扫