Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索
发布时间:2020-07-20 23:48:19
来源:51CTO
阅读:883
python编译练习,为了将自己学习过的知识用上,自己找了很多资料。所以想做一个简单的爬虫,代码不会超过60行。主要用于爬取的古诗文网站没有什么限制而且网页排布很规律,没有什么特别的东西,适合入门级别的爬虫。
抓取目标站点的准备工作
Python的版本是:3.4.3.
爬取的目标是: 古诗文网(www.xzslx.net)
随意打开一个古诗文网的古诗页面,查看它的网页地址就能看到,古诗的地址基本是 “www.xzslx.net/shi/+ id + .html” 构成,如下图:
然后对古诗文网的古诗总览页面可以看到分页符 最下方:
总共包括29830篇古诗文可以抓取,确定了”/shi/”后面数字的范围。
html页面解析库:BeautifulSoup
安装方式是: $pip3 install BeautifulSoup4
主要参考文献:《python网络数据采集》第一、二章
代码解析:#!usr/bin/python3
# -*- coding:utf-8 -*-
import re
from urllib.request import urlopen
from url