爬虫的小步骤:
1.url解析
2.发送请求
3.接收返回
4.进行解析
5.存储
小试牛刀
需求:
将国风中文网制定页的小说的题目、作者、最近更新章节和时间抓取下来保存到本地
开始了
小伙伴们,今天我们用的利剑是requests、xpath
第一步:导入模块
import requests
from lxml import etree
import json
第二步:定义类方法
class Yuedu: def __init__(self): pass #1发送数据请求 def GetPage(self,url): pass #2解析数据 def ParsePage(self,html): pass #3保存数据 def WritePage(self,item_list): pass def Startwork(self): pass #实例对象 yuedu = Yuedu() #开启程序 yuedu.Startwork() 第三步:按照这个思路,完善数据 1 在init中可以设置报头,防止网站反爬,默认是python27def __init__(self): #请求报头