requests爬取小说

最新推荐文章于 2024-05-13 00:42:02 发布

bingying3hao

最新推荐文章于 2024-05-13 00:42:02 发布

阅读量851

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/bingying3hao/article/details/77097844

版权

爬虫的小步骤：

1.url解析

2.发送请求

3.接收返回

4.进行解析

5.存储

小试牛刀

需求：

将国风中文网制定页的小说的题目、作者、最近更新章节和时间抓取下来保存到本地

开始了

小伙伴们，今天我们用的利剑是requests、xpath

第一步：导入模块

import requests

from lxml import etree

import json

第二步：定义类方法

class Yuedu:
    def __init__(self):
       pass
    #1发送数据请求
    def GetPage(self,url):
        pass
    #2解析数据
    def ParsePage(self,html):
        pass
    #3保存数据
    def WritePage(self,item_list):
        pass
    def Startwork(self):
        pass
#实例对象
yuedu = Yuedu()
#开启程序
yuedu.Startwork()

第三步：按照这个思路，完善数据
1 在init中可以设置报头，防止网站反爬，默认是python27
def __init__(self):
    #请求报头

最低0.47元/天解锁文章

bingying3hao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
requests爬取小说

爬虫的小步骤：1.url解析2.发送请求3.接收返回4.进行解析5.存储小试牛刀需求：将国风中文网制定页的小说的题目、作者、最近更新章节和时间抓取下来保存到本地开始了小伙伴们，今天我们用的利剑是requests、xpath第一步：导入模块import requestsfrom lxml import etreeimport json第二步
复制链接

扫一扫

专栏目录