学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据。
1、首先确定URL,并抓取详情页中需要的信息
首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com/detail/762548881638506498z.shtml ,需要爬取网页中商品的标题、浏览量、价格、地区,通过下面的代码获取需要的信息并打印出来,代码如下:
url = 'http://zhuanzhuan.58.com/detail/762548881638506498z.shtml'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.title.text
price = soup.select('span.price_now > i')
city = soup.select('.palce_li > span > i')
browse = soup.select('.look_time')
data = {
'title': title,
'price': price[0].text,
'city': city[0].text,
'browse': browse[0].text
}
print(data)
2、提取每页中所有的商品链接
首先需要观察网页的信息,确认分页情况。URL:http://bj.58.com/pbdn/pn2 中的数字2代表第二页,这样我们可以传入不同的数值获取相应的页面