简单了解Beautiful Soup
Beautiful Soup是一个基本选择器,标准选择器,css选择器
它与xpath的用途差不多,但是
xpath:是标签选择器,所以它是检索局部的
而Beautiful Soup:是检索全局的
所以如果单单只是普通的查询的话,建议还是使用xpath,效率高,但是Beautiful Soup精度比xpath要高些
基础语法
(1)、通过标签名
html_doc.select(‘img’)
(2)、通过类名查找
html_doc.select(’.easyCon’)
(3)、通过id查找
html_doc.select(’#id’)
(4)、混合查找
html_doc.select(‘img #noLogin’)
在img标签中,找到id = noLogin的内容
如果找不到,就返回一个空列表
(5)、按照属性查找
html_doc.select(‘li[id=“noLogin”]’)
(6)、获取属性与文字部分
a_obj = html_doc.select(‘li[id=“noLogin”] a’)[]
print(a_obj)
print(‘获取属性’,a_obj.attrs[‘href’])
print(‘获取文字’,a_obj.get_text())
其实Beautiful Soup语法和xpath也差不多,毕竟所谓一样通样样通 是吧