记第一次爬虫

最新推荐文章于 2020-12-01 01:05:19 发布

蜘蛛侠wjj

最新推荐文章于 2020-12-01 01:05:19 发布

阅读量219

点赞数

本文链接：https://blog.csdn.net/qq_42529429/article/details/90342132

版权

在学习爬虫的过程中，我首先进行的是对豆瓣top250的爬取，步骤可分为如下几步：
第一步：抓包（url）
第二步：请求url
第三步：解析，提取出我需要的信息
第四步:存入文件
首先我对豆瓣的网页进行了分析，打开要抓取的网页，F12->F5，这样你就可以看到网页源码了，进入到Network，找到要抓取的包：
在这里插入图片描述
然后进入到Headers,找到url

接下来就是进入到pycharm中进行代码的编写，数据的爬取了，以下是我的代码：`

import requests
from bs4 import BeautifulSoup
i=0
urls=['https://movie.douban.com/top250?start='+str(n)+'&filter='for n in range(0,250,50)]
for url in urls:
    wb_data=requests.get(url)
    Soup=BeautifulSoup(wb_data.text,'lxml')
    titles=Soup.select('div.hd>a')
    rates=Soup.select('span.rating_num')
    imgs=Soup.select('img[width="100"]')
    for title,rate,img in zip(titles,rates,imgs):
        data={
            'title':list(title.stripped_strings),
            'rate':rate  .get_text(),
            'img':img  .get('src')
        }
        i+=1
        fileName=str(i)+'丶'+data['title'][0]+' '+data['rate']+'分.jpg'
        pic=requests.get(data['img'])
        with open('C:/Users/spider-man/PycharmProjects/untitled'+fileName,'wb')as photo:
            photo.write(pic.content)
        print(data )

结果如下：
在这里插入图片描述

蜘蛛侠wjj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记第一次爬虫

在学习爬虫的过程中，我首先进行的是对豆瓣top250的爬取，步骤可分为如下几步：第一步：抓包（url）第二步：请求url第三步：解析，提取出我需要的信息第四步:存入文件首先我对豆瓣的网页进行了分析，打开要抓取的网页，F12->F5，这样你就可以看到网页源码了，进入到Network，找到要抓取的包：然后进入到Headers,找到url接下来就是进入到pycharm中进行代码的...
复制链接

扫一扫