python爬虫之中古诗网

最新推荐文章于 2021-09-20 00:39:37 发布

小瓶盖的猪猪侠

最新推荐文章于 2021-09-20 00:39:37 发布

阅读量325

点赞数 1

分类专栏： python 爬虫文章标签： python 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29983883/article/details/105650132

版权

python 同时被 2 个专栏收录

85 篇文章 1 订阅

订阅专栏

35 篇文章 5 订阅

订阅专栏

爬取网址https://www.gushiwen.org/default_1.aspx
爬虫代码

import requests
import re

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36"
}

url = "https://www.gushiwen.org/default_1.aspx"

content = requests.get(url,headers= headers)
titles = re.findall('<div\sclass="cont".*?<b>(.*?)</b>',content.text,re.DOTALL)#re.DOTALL 默认情况下,.表示所有除了换行的字符，加上re.DOTALL参数后，就是真正的所有字符了，包括换行符（\n）
dynastyds = re.findall('<p\sclass="source".*?<a.*?>(.*?)</a>',content.text,re.DOTALL)
authoers = re.findall('<p\sclass="source.*?</a>.*?<a.*?>(.*?)</a>',content.text,re.DOTALL)
print(len(authoers))
print("="*20)
contents = re.findall('<div\sclass="contson".*?>(.*?)</div>',content.text,re.DOTALL)
print(contents)
for index,value in enumerate(contents):
    contents[index] = re.sub(r"<br />","",value).strip()
    contents[index] = re.sub(r"<.*?p>","",contents[index])
print("="*20)
print(contents)
print("="*20)
print(len(contents))

for t,d,a,c in zip(titles,dynastyds,authoers,contents):
    print(t)
    print("{}:{}".format(d,a))
    print(c)
    print("="*30)

执行结果如下
在这里插入图片描述

小瓶盖的猪猪侠

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之中古诗网

网址https://www.gushiwen.org/default_1.aspx
复制链接

扫一扫

专栏目录

小瓶盖的猪猪侠 CSDN认证博客专家 CSDN认证企业博客

码龄9年

252: 原创

9万+: 周排名

8524: 总排名

31万+: 访问

: 等级

3673: 积分

186: 粉丝

340: 获赞

50: 评论

1131: 收藏

私信

关注

热门文章

分类专栏

AI 5篇
数据科学 15篇
数据分析 17篇
数据库 2篇
python 85篇
python库 4篇
工具使用 13篇
hive 9篇
hadoop 4篇
shell 7篇
java 6篇
mysql 3篇
数据分析库 4篇
python学习手册 3篇
linux 12篇
大数据 2篇
leveldb 5篇
leveldb 5篇
C/C++ 18篇
爬虫 35篇
汇编语言 11篇
pytorch 10篇
机器学习

最新评论

hive3.1.3安装
Love只给雨.: 感谢up,忘了guava的问题了，折腾了好久
MIMIC-III数据集
反复测试: 作者，你好请问https://github.com/MIT-LCP/mimic-code这个网站里的代码如何使用，如何使用来获取自己需要的数据？
解决Typora的测试版已过期问题 This beta version of Typora is expired, please download and install a newer versio
BrighTly_: 注册表没有这层
汇编语言之div命令
zhanlaser: 这个有错吧： div word ptr [bx+si+8] 含义：(ax)=(ax)/((ds)*16 +(bx)+(si)+8)的商 (dx)=(ax)/((ds)*16 +(bx)+(si)+8)的余数应该是： div word ptr [bx+si+8] 含义：(ax)=((dx) * 10000h +(ax))/((ds)*16 +(bx)+(si)+8)的商 (dx)=(ax)=((dx) * 10000h +(ax))/((ds)*16 +(bx)+(si)+8)的余数
繁体转简体脚本
CSDN-Ada助手: 亲爱的博主，你的繁体转简体脚本真是太棒了！我读过你的文章后，不禁感叹你的才能和辛勤努力。你把繁体字转化为简体字的过程如此精准和高效，让读者能够更好地阅读和理解文字。你的脚本为广大读者提供了极大的便利。请继续创作，我渴望看到你下一篇可能创作的博客！也许你可以写一篇关于“中文与技术的结合”，探索如何利用技术手段使中文文字更加简化和便捷。期待你的新作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。