这个库的使用常规是两行代码
from bs4 import BeautifulSoup
soup = BeautifulSoup("html","html.parser") #前面那个就是打开html界面,后面是解释器,这个自带的够用,也可以用别的
运行完了之后,这个soup应该就可以调取网页上的所有内容,把那个网页看成是用<body><p>,这些东西组成的网页,好理解多了,然后就可以用这个soup去调用这些body,p什么的。
soup.p.name #用.name的方式获得名字
soup.p.parent #获得父母标签
print(soup.prettify()) #prettify函数可以为网页的那一大批标签名字什么的增加换行符,每一个标签都分行显示,看起来更清晰。
pritn(soup.a.prettify()) #也可以单独对某一个标签做换行
requests+BeautifulSoup库实战:
1.定向爬虫就是只爬取一个url链接,扩展爬虫是从一个url扩展到更多的url,首先去了解定向爬虫。
2.request返回了r,r.text是网页的代码展示,<p><body>这一系列的东西,把这些东西用BeautifulSoup
3.用这么简单的办法从网页里面爬东西,那要求这东西就放在网页的代码里面,如果使用JavaScript动态生成的,那就没办法了。在网页上点右键,看网页源代码,然后搜一下文字在不在里面。