Python爬取散文网散文

最新推荐文章于 2023-07-01 09:32:55 发布

bxer

最新推荐文章于 2023-07-01 09:32:55 发布

阅读量303

点赞数

本文链接：https://blog.csdn.net/baddog_/article/details/80575158

版权

本文介绍了如何使用Python 2.7进行网络爬虫，通过pip安装bs4和requests库。讲解了bs4库中find和find_all方法的区别，并提供了测试示例。接着展示了一个爬取散文网不同类别页面的示例，包括获取文章标题、作者和URL，以及下载内容的实现。最后，作者提到了可能遇到的超时问题和学习进步的重要性。

摘要由CSDN通过智能技术生成

配置python 2.7

    bs4

    requests

安装用pip进行安装 sudo pip install bs4

sudo pip install requests

简要说明一下bs4的使用因为是爬取网页所以就介绍find 跟find_all

find跟find_all的不同在于返回的东西不同 find返回的是匹配到的第一个标签及标签里的内容

find_all返回的是一个列表

比如我们写一个test.html 用来测试find跟find_all的区别。内容是：

<html>
<head>
</head>
<body>
<div id="one"><a></a></div>
<div id="two"><a href="#">abc</a></div>
<div id="three"><a href="#">three a</a><a href="#">three a</a><a href="#">three a</a></div>
<div id="four"><a href="#">four<p>four p</p><p>four p</p><p>four p</p> a</a></div>
</body>
</html>


 ```
然后test.py的代码为：

from bs4 import BeautifulSoup
import lxml

if name=&

最低0.47元/天解锁文章

bxer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬取散文网散文

配置python 2.7 bs4 requests安装用pip进行安装 sudo pip install bs4sudo pip install requests简要说明一下bs4的使用因为是爬取网页所以就介绍find 跟find_allfind跟find_all的不同在于返回的东西不同 find返回的是匹配到的第一个标签及标签里的内容find_all返...
复制链接

扫一扫