这篇文章主要介绍了Python如何使用BeautifulSoup爬取网页信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
简单爬取网页信息的思路一般是
1、查看网页源码
2、抓取网页信息
3、解析网页内容
4、储存到文件
现在使用BeautifulSoup解析库来爬取刺猬实习Python岗位薪资情况
一、查看网页源码
这部分是我们需要的内容,对应的源码为:
分析源码,可以得知:
1、岗位信息列表在中
2、每条信息在中
3、对于每条信息,我们需要提取出的内容是 公司名称,职位, 薪资
二、抓取网页信息
使用request.get()抓取,返回的soup是网页的文本信息
def get_one_page(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
return soup
三、解析网页内容
1、找到起始位置
2、在中匹配到各项信息
3、返回信息列表用以存储
def parse_page(soup):
#待存储的信息列表
return_list = []
#起始位置
grid = soup.find('section', attrs={"class": "widget-job-list"})
if grid