本篇博文为简单爬取小说网站的小说代码分为三种编程思想,面对过程,面对函数,面对对象,本篇为第一种,也是最简单的一种。面对过程即已过程为中心的编程思想。这里我们把爬取的详细分为以下几个步骤:
1.下载小说的主页(首先我们要获取主页面的信息)
2.提取小说的标题(获取我们想要爬取的小说名称)
3.提取下载每一个章节里面的内容(使用for循环下载章节)
4.提取并下载每一个章节的内容
5.清洗抓取到的数据(对数据进行筛选)
6.将数据写入txt文件
清楚这6个步骤我们就来敲代码吧,(*^▽^*)
1.下载小说的主页
import requests
import re
#url为所要爬取的小说的网址链接
url = 'http://www.jingcaiyuedu.com/book/15205.html'
#发送http请求
response = requests.get(url)
response.encoding = 'utf-8'
html = response.text
2..提取小说的标题
title = re.findall(r'<meta property="og:title" content="(.*?)"/>',html)[0]
这里要说一下re 是