Beautiful Soup库笔记

这篇博客介绍了如何使用BeautifulSoup库进行网页抓取。通过两行代码即可获取网页内容,利用soup对象可以调用网页的各个元素。讨论了定向爬虫与扩展爬虫的区别,并展示了如何提取大学排名信息。讲解了soup的查找方法、isinstance函数、dict字典的使用,以及如何格式化输出。还特别提到了在处理中英文混合输出时的空格问题。
摘要由CSDN通过智能技术生成

这个库的使用常规是两行代码

from bs4 import BeautifulSoup

soup = BeautifulSoup("html","html.parser") #前面那个就是打开html界面,后面是解释器,这个自带的够用,也可以用别的

运行完了之后,这个soup应该就可以调取网页上的所有内容,把那个网页看成是用<body><p>,这些东西组成的网页,好理解多了,然后就可以用这个soup去调用这些body,p什么的。

soup.p.name      #用.name的方式获得名字

soup.p.parent     #获得父母标签

 

print(soup.prettify())     #prettify函数可以为网页的那一大批标签名字什么的增加换行符,每一个标签都分行显示,看起来更清晰。

pritn(soup.a.prettify())  #也可以单独对某一个标签做换行

 

requests+BeautifulSoup库实战:

1.定向爬虫就是只爬取一个url链接,扩展爬虫是从一个url扩展到更多的url,首先去了解定向爬虫。

2.request返回了r,r.text是网页的代码展示,<p><body>这一系列的东西,把这些东西用BeautifulSoup

3.用这么简单的办法从网页里面爬东西,那要求这东西就放在网页的代码里面,如果使用JavaScript动态生成的,那就没办法了。在网页上点右键,看网页源代码,然后搜一下文字在不在里面。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值