在学习爬虫的过程中,我首先进行的是对豆瓣top250的爬取,步骤可分为如下几步:
第一步:抓包(url)
第二步:请求url
第三步:解析,提取出我需要的信息
第四步:存入文件
首先我对豆瓣的网页进行了分析,打开要抓取的网页,F12->F5,这样你就可以看到网页源码了,进入到Network,找到要抓取的包:
然后进入到Headers,找到url
接下来就是进入到pycharm中进行代码的编写,数据的爬取了,以下是我的代码:`
import requests
from bs4 import BeautifulSoup
i=0
urls=['https://movie.douban.com/top250?start='+str(n)+'&filter='for n in range(0,250,50)]
for url in urls:
wb_data=requests.get(url)
Soup=BeautifulSoup(wb_data.text,'lxml')
titles=Soup.select('div.hd>a')
rates=Soup.select('span.rating_num')
imgs=Soup.select('img[width="100"]')
for title,rate,img in zip(titles,rates,imgs):
data={
'title':list(title.stripped_strings),
'rate':rate .get_text(),
'img':img .get('src')
}
i+=1
fileName=str(i)+'丶'+data['title'][0]+' '+data['rate']+'分.jpg'
pic=requests.get(data['img'])
with open('C:/Users/spider-man/PycharmProjects/untitled'+fileName,'wb')as photo:
photo.write(pic.content)
print(data )
结果如下: