记第一次爬虫

在学习爬虫的过程中,我首先进行的是对豆瓣top250的爬取,步骤可分为如下几步:
第一步:抓包(url)
第二步:请求url
第三步:解析,提取出我需要的信息
第四步:存入文件
首先我对豆瓣的网页进行了分析,打开要抓取的网页,F12->F5,这样你就可以看到网页源码了,进入到Network,找到要抓取的包:
在这里插入图片描述
然后进入到Headers,找到url
在这里插入图片描述
接下来就是进入到pycharm中进行代码的编写,数据的爬取了,以下是我的代码:`

import requests
from bs4 import BeautifulSoup
i=0
urls=['https://movie.douban.com/top250?start='+str(n)+'&filter='for n in range(0,250,50)]
for url in urls:
    wb_data=requests.get(url)
    Soup=BeautifulSoup(wb_data.text,'lxml')
    titles=Soup.select('div.hd>a')
    rates=Soup.select('span.rating_num')
    imgs=Soup.select('img[width="100"]')
    for title,rate,img in zip(titles,rates,imgs):
        data={
            'title':list(title.stripped_strings),
            'rate':rate  .get_text(),
            'img':img  .get('src')
        }
        i+=1
        fileName=str(i)+'丶'+data['title'][0]+' '+data['rate']+'分.jpg'
        pic=requests.get(data['img'])
        with open('C:/Users/spider-man/PycharmProjects/untitled'+fileName,'wb')as photo:
            photo.write(pic.content)
        print(data )

结果如下:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值