第一个爬虫-豆瓣

经过查阅一些资料,看了视频,写出了一个简陋的python爬虫程序。

各方资料都表明豆瓣电影排行榜top250是最适合用来进行学习第一次进行python爬虫的程序。

故选择该网站进行标题的爬取。
豆瓣电影排行top250
网址
此网址为豆瓣电影排行top250,
start=0表示排行从该数字+1开始进行排名,
每页有25的个电影,可据此找出每页网址的规律。
baseurl = "https://movie.douban.com/top250?start="
每页的网址为

for i in range(0,10):#进行翻页操作
    url=baseurl+str(i*25)

按下f12进入开发者模式,查看标题处的信息。

在这里插入图片描述
标题位于如下位置

<span class='title'>xx</span>

在这里插入图片描述
找到整块的信息位置

<div class="hd">

在这里插入图片描述
故很容易发现每一个<div class="hd">都代表了一个电影的所有标题内容,而我们只需要最广为人知的标题内容即可,故只需要提取期中的第一个<span class='title'>,即可得到电影的名字

下面说明head的获得方法,为了防止被豆瓣拒绝访问,我们需要将自己伪装成浏览器,故需要浏览器的头部信息。
在这里插入图片描述
在豆瓣250的网页中按下f12进入开发者模式,点到network选项中,如果此时没有信息,则进行刷新网页的操作,此时按下filter上方的小圆圈暂停,将鼠标移到途中所示位置,即可出线下方的top50的信息,单击这条信息。
在这里插入图片描述
进去后点击headers,拉到最下方可以看到user-agent的信息,全部复制,稍加修饰就变成了代码中所使用的的head变量的信息。

from bs4 import BeautifulSoup
import requests
#模拟浏览器头部信息,向豆瓣发送信息
head = {"User-Agent": "Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X)AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1"
        }
baseurl = "https://movie.douban.com/top250?start="
url=""
count=0
for i in range(0,10):#进行翻页操作
    url=baseurl+str(i*25)
    f = requests.get(url,headers=head)        
    soup = BeautifulSoup(f.content, "lxml")  
    for k in soup.find_all('div',class_='hd'):#找到div并且class为hd的标签
        a = k.find_all('span',class_='title') #在每个对应div标签下找span标签
        count+=1
        print(a[0].string,count)            #取第一组的span中的字符串,并输出排名

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值