BeautifulSoup介绍
BeautifulSoup是python中主要用来开发爬虫的一个库,可以从网页中抓取数据生成对象。
lxml介绍
lxml是一个用来解析数据的库,用来配合BeautifulSoup生成的对象来解析数据。官方也提供了解析器html.parser,但是这个不是很稳定,推荐使用lxml。
基本用法
查看本地是否安装bs4和lxml,pip show bs4,pip show lxml;
#请求
requests.get(base_url,headers = headers)
#获取网页对象
soup = BeautifulSoup(out.text,"lxml")
#解析网页
dans = soup.find_all('div',class_='dan')
*常用用法
soup.find('a)
soup.find_all(‘a’)
soup.find(class_=‘page’)
soup.find(id=“link3”)
更多参考官网