获取节点:
参数1:目标字符串;参数2:解析器
soup = BeautifulSoup(html,'lxml')
获取标记标题类型:print(type(soup.title))
获取标记内容:print(soup.title.string)
获取标记:print(soup.head)
当有多个相同标记时,只能匹配到第一个节点,忽略其他节点:print(soup.p)
获取节点名称:print(soup.title.name)
————————————————————————————————————
获取属性:
soup = BeautifulSoup(html,'lxml')
attrs会返回标签中的所有属性,返回的值是字典;根据属性的性质来识别返回的是列表还是字符串;如,class具有多个含义,返回的是列表
print(soup.p.attrs)
抓取数据的两种形式:
print(soup.p.attrs['name'])
print(soup.p.attrs['class'])
print(soup.p['class'])
print(soup.p['name'])