Beautiful Soup库笔记

最新推荐文章于 2021-03-24 17:16:19 发布

荒陌

最新推荐文章于 2021-03-24 17:16:19 发布

阅读量173

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/sinat_38640606/article/details/82863491

版权

这篇博客介绍了如何使用BeautifulSoup库进行网页抓取。通过两行代码即可获取网页内容，利用soup对象可以调用网页的各个元素。讨论了定向爬虫与扩展爬虫的区别，并展示了如何提取大学排名信息。讲解了soup的查找方法、isinstance函数、dict字典的使用，以及如何格式化输出。还特别提到了在处理中英文混合输出时的空格问题。

摘要由CSDN通过智能技术生成

这个库的使用常规是两行代码

from bs4 import BeautifulSoup

soup = BeautifulSoup("html","html.parser") #前面那个就是打开html界面，后面是解释器，这个自带的够用，也可以用别的

运行完了之后，这个soup应该就可以调取网页上的所有内容，把那个网页看成是用<body><p>，这些东西组成的网页，好理解多了，然后就可以用这个soup去调用这些body，p什么的。

soup.p.name #用.name的方式获得名字

soup.p.parent #获得父母标签

print(soup.prettify()) #prettify函数可以为网页的那一大批标签名字什么的增加换行符，每一个标签都分行显示，看起来更清晰。

pritn(soup.a.prettify()) #也可以单独对某一个标签做换行

requests+BeautifulSoup库实战：

1.定向爬虫就是只爬取一个url链接，扩展爬虫是从一个url扩展到更多的url，首先去了解定向爬虫。

2.request返回了r，r.text是网页的代码展示，<p><body>这一系列的东西，把这些东西用BeautifulSoup

3.用这么简单的办法从网页里面爬东西，那要求这东西就放在网页的代码里面，如果使用JavaScript动态生成的，那就没办法了。在网页上点右键，看网页源代码，然后搜一下文字在不在里面。

最低0.47元/天解锁文章

荒陌

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录