【爬虫练习】简单探求CSDN文章访问量更新机制

利用python的requests模块,对文章循环发送请求,并记录访问量稳定更新的时间,最终得出如下结论:同一用户在不断对文章发送请求的情况下,访问量60秒左右更新一次。实现过程分析如下:

一、获取主页所有文章链接

CSDN主页的所有文章均位于一个div标签下,仅需用xpath方法即可得到所有文章链接。
代码如下:

url = 'https://blog.csdn.net/Aqqw231'
headers = {"User-Agent": str(UserAgent().random)}
page_code = requests.get(url, headers=headers)
page_code.encoding = 'utf-8'
page_code = page_code.text
tree = etree.HTML(page_code)
add_list = tree.xpath('//*[@id="userSkin"]/div[2]/div/div[2]/div[1]/div[2]/div/div')
passage_urls = []
for div in add_list:
    passage_urls = div.xpath('//article/a/@href')
print('文章数:{}'.format(len(passage_urls)))

二、对文章链接发送请求

while True:
    for url in passage_urls:
        t = requests.get(url=url, headers=headers)
        t.encoding = 'utf-8'
        p = t.text
        time.sleep(1)

每次请求结束后,延时一秒,防止请求速度过快被网站封禁。

三、获取访问量更新时间

获取文章访问量,采用re方法比较简单。使用time函数来获取时间。
检测访问量更新时间思路如下:将访问量分为前一循环的旧访问量和当前循环的新访问量,用if条件判断两次访问量的大小关系,若新访问量大于旧访问量,则输出此时的时间差。然后初始化循环开始时间,将当前访问量赋值给旧访问量,下次循环结束后重新获取新访问量。
代码如下:

 url_main = 'https://blog.csdn.net/Aqqw231?spm=1000.2115.3001.5343'
    page_code = requests.get(url=url_main, headers=headers)
    page_code.encoding = 'utf-8'
    page_text = page_code.text
    num = re.findall(
        '<ul data-v-d1dbb6f8><li data-v-d1dbb6f8><div class="user-profile-statistics-num" data-v-d1dbb6f8>(.*?)</div>',
        page_text)
    num_passage = num[0]    # 新访问量
    if ',' in num_passage:  # 删除’1,002‘中的逗号
        num_passage = num_passage.replace(',', '')

    # 判断访问量是否增长,访问量增长之后进行相关参数输出,即旧访问量大于新访问量。旧访问量即为上一个循环结束时的访问量
    if int(num_passage) > int(num_old):
        end_time = time.time()  # 访问量增长时的时间
        print('第{}次访问,总访问量:{},用时{:.2f}秒'.format(i, num_passage, end_time - start_time))
        start_time = time.time()    # 初始化循环开始时间
    num_old = num_passage   # 将当前访问量赋值给旧访问量//更新旧访问量
    i += 1  # 循环次数加一
    time.sleep(1)

四、完整代码

import requests
import time
import re
from lxml import etree
from fake_useragent import UserAgent

# 获取所有文章链接
url = 'https://blog.csdn.net/Aqqw231'
headers = {"User-Agent": str(UserAgent().random)}
page_code = requests.get(url, headers=headers)
page_code.encoding = 'utf-8'
page_code = page_code.text
tree = etree.HTML(page_code)
add_list = tree.xpath('//*[@id="userSkin"]/div[2]/div/div[2]/div[1]/div[2]/div/div')
passage_urls = []
for div in add_list:
    passage_urls = div.xpath('//article/a/@href')
print('文章数:{}'.format(len(passage_urls)))

# 对文章循环发送get请求,增加访问量
start_time = time.time()
i = 1   # 循环次数记录
num_passage = 0  # 定义访问数量
num_old = num_passage  # 定义旧访问数,用来判断访问量是否增长
while True:
    for url in passage_urls:
        t = requests.get(url=url, headers=headers)
        t.encoding = 'utf-8'
        p = t.text
        time.sleep(1)
    # 获取访问量
    url_main = 'https://blog.csdn.net/Aqqw231?spm=1000.2115.3001.5343'
    page_code = requests.get(url=url_main, headers=headers)
    page_code.encoding = 'utf-8'
    page_text = page_code.text
    num = re.findall(
        '<ul data-v-d1dbb6f8><li data-v-d1dbb6f8><div class="user-profile-statistics-num" data-v-d1dbb6f8>(.*?)</div>',
        page_text)
    num_passage = num[0]    # 新访问量
    if ',' in num_passage:  # 删除’1,002‘中的逗号
        num_passage = num_passage.replace(',', '')

    # 判断访问量是否增长,访问量增长之后进行相关参数输出,即旧访问量大于新访问量。旧访问量即为上一个循环结束时的访问量
    if int(num_passage) > int(num_old):
        end_time = time.time()  # 访问量增长时的时间
        print('第{}次访问,总访问量:{},用时{:.2f}秒'.format(i, num_passage, end_time - start_time))
        start_time = time.time()    # 初始化循环开始时间
    num_old = num_passage   # 将当前访问量赋值给旧访问量//更新旧访问量
    i += 1  # 循环次数加一
    time.sleep(1)

五、代码运行效果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值