爬取对象: 书趣阁
1、请求服务器
1.1分析网页
同样的,爬取网页之前要先分析网页
1.2获取html文件
# 导入包
import requests
url = "http://www.shuquge.com/txt/514/363448.html"
reponse = requests.get(url)
print (reponse.text)
这里出现了乱码,我们要进行解码
1.3解码
解码的代码如下:
#解码
reponse.encoding = reponse.apparent_encoding
print (reponse.text)
得到的结果如下:
这里就很正常了
2、提取并保存信息
2.1提取小说标题
首先我们先提取小说的标题,代码如下:
# 提取信息
from lxml import etree
#解析
etree_html = etree.HTML(reponse.text)
#提取标题
title = etree_html.xpath('//*[@id="wrapper"]/div[4]/div[2]/h1/text()')
print (title)
得到的结果是:
2.2提取小说内容
其次我们要提取小说的内容,提取的代码如下:
#提取内容
content = etree_html.xpath('//*[@id="content"]//text()')