python古诗默写_Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索

这篇博客介绍了一个Python初级爬虫项目,通过爬取古诗文网站www.xzslx.net,搜索包含特定词汇的诗句。文章详细阐述了如何构造URL、使用BeautifulSoup解析HTML、正则表达式提取句子,并将结果保存到result.txt文件中。
摘要由CSDN通过智能技术生成

Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索

发布时间:2020-07-20 23:48:19

来源:51CTO

阅读:883

python编译练习,为了将自己学习过的知识用上,自己找了很多资料。所以想做一个简单的爬虫,代码不会超过60行。主要用于爬取的古诗文网站没有什么限制而且网页排布很规律,没有什么特别的东西,适合入门级别的爬虫。

抓取目标站点的准备工作

Python的版本是:3.4.3.

爬取的目标是: 古诗文网(www.xzslx.net)

随意打开一个古诗文网的古诗页面,查看它的网页地址就能看到,古诗的地址基本是 “www.xzslx.net/shi/+ id + .html” 构成,如下图:

然后对古诗文网的古诗总览页面可以看到分页符 最下方:

总共包括29830篇古诗文可以抓取,确定了”/shi/”后面数字的范围。

html页面解析库:BeautifulSoup

安装方式是: $pip3 install BeautifulSoup4

主要参考文献:《python网络数据采集》第一、二章

代码解析:#!usr/bin/python3

# -*- coding:utf-8 -*-

import re

from urllib.request import urlopen

from url

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值