学习爬虫的小笔记,希望能和大家一起进步哈。
爬虫爬一般都是网页信息,beautifulsoup能够使用html.parse对网页信息进行解析,一个beautifulsoup对应一个网页的内容,就是使用requests(url)返回的对象的text。
下面讲一下beautifulsoup的几个基本元素:
举几个例子说明一下吧。
tag是带有<>…</>标签的一段内容,比如我们现在已经通过beautifulsoup获得了一个soup,在soup下有一个a的子标签,那么tag=soup.a返回的就是…中的全部内容。
name就是…中的a,也可以通过soup.a.parent.name来访问它的父节点的名字。
attr是<a class:‘name’>…中的以字典形式组织的属性值。可以通过soup.a.attrs(class),返回的是‘name’。
string是返回非属性的字符串的格式,comment是返回该标签中的comment部分,都是对tag进行的操作。
另外,使用bs4库中的prettify()来使html更加友好地显示,还可以使用遍历的方法来分析网页结构。