以笔趣阁网站为例,爬取一念永恒这本小说
链接如下:http://www.biqukan.com/1_1094
具体代码如下:
1 from bs4 import BeautifulSoup 2 from urllib import request 3 import requests 4 import re 5 import sys 6 def Down_this_chapter(chapter_url,name):#单章下载 7 r = requests.get(chapter_url,timeout = 30)#防止爬取时间过长造成爬虫假死 8 r.raise_for_status()#自动判断返回的状态码是不是200 9 r.encoding = r.apparent_encoding#使用备用编码代替现在的编码,一般是'utf-8' 10 demo = r.text#获得页面文本信息 11 soup=BeautifulSoup(demo,'lxml')#解析页面 12 text=soup.find_all(id='content',class_='showtxt')#