find_all的使用:在提取标签的时候,第一个参数是标签的名字,在提取标签的时候想要提取标签属性进行过滤,那么可以在这个方法中通过关键字参数的形式,将属性的名字以及对应的值传进去,或者是使用'attrs'属性,将所有的属性以及对应的值放在一个字典中传给'attrs'属性
在提取标签的时候 不想提取那么多,那么可以使用'limit'参数限制提取多少个
1.find和find_all的区别:
find:找到一个满足条件的标签就返回,只返回一个元素
find_all:将所有满足条件的标签都返回,返回多个标签
2.find和find_all的过滤条件
(1)关键字参数:将属性的名字作为关键数参数,将属性的值作为关键字参数的值进行过滤
(2)attrs参数:将属性值放在一个字典中传给attrs参数
3.获取标签的属性:
(1)通过下标获取:通过标签的下标方式:
href = a['href']
(2)通过attrs属性获取:
href = a.attrs['href']
4.string,strings和stripped_strings属性以及get_text方法:
string:获取某个标签下的非标签字符串,返回的是字符串
strings:获取某个标签下的子孙非标签字符串,返回的是生成器
stripped_strings:获取某个标签下的子孙非标签字符串,会去掉空白字符,返回的是生成器
get_text:获取某个标签下的子孙非标签字符串,不是一列表的形式返回,是以普通字符串返回