http://glidedsky.com/里的爬虫小游戏

求一个网页的数字之和

在这里插入图片描述

1.打开需要爬取的网址http://glidedsky.com/

复制图中的url
该网站需要登录

由于这个网站需要登录账号,所以我们需要先登录该网站然后获取到cookie信息,步骤如下:

1.登录到该网站,复制出cookie和headers
在这里插入图片描述
在这里插入图片描述
2.右键查看源代码,可以发现网页中的所有数字都在

这个标签里,知道这些我们就可以通过正则表达式来进行匹配所需要的数字了
在这里插入图片描述

import requests
import re
from lxml import etree
url = "http://glidedsky.com/level/web/crawler-basic-1"
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    ' (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46',
    'Cookie': '*************这里写入上面复制到的cookie***************'
}
r = requests.get(url=url,headers=header).text
#print(r)
#***********
#正则表达式解析网页数据
num = re.findall('<div class="col-md-1".*?(\d+)',r,re.S)  #正则表达式匹配到数字
#print(num)
s = 0
for i in num:
    s = s+int(i)
print(s)
#*************#
#Xpath解析数据
num = lxml.etree.HTML(r)
print(num)
num_list = num.xpath('/html/body//div[@class="col-md-1"]/text()')
s = 0
for i in num_list:
    s = s+int(i)
    print(int(i))
print(s)
#*************#

运行结果如下:(每个人的答案都不一样)
在这里插入图片描述

总结:第一次写博客,做的不是很好,但这也是自己第一次开始对爬虫感兴趣,希望写这样一个博客记录一下,也希望能给大家学习爬虫带来一点帮助。虽然很简单,但以这种小游戏的方式更容易激起自己的兴趣。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叮咚渣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值