【爬虫练习】简单探求CSDN文章访问量更新机制

最新推荐文章于 2024-03-02 21:57:50 发布

汉语言文学23A

最新推荐文章于 2024-03-02 21:57:50 发布

阅读量403

点赞数 1

文章标签：爬虫 python

本文链接：https://blog.csdn.net/Aqqw231/article/details/126270979

版权

利用python的requests模块，对文章循环发送请求，并记录访问量稳定更新的时间，最终得出如下结论：同一用户在不断对文章发送请求的情况下，访问量60秒左右更新一次。实现过程分析如下：

一、获取主页所有文章链接

CSDN主页的所有文章均位于一个div标签下，仅需用xpath方法即可得到所有文章链接。
代码如下：

url = 'https://blog.csdn.net/Aqqw231'
headers = {"User-Agent": str(UserAgent().random)}
page_code = requests.get(url, headers=headers)
page_code.encoding = 'utf-8'
page_code = page_code.text
tree = etree.HTML(page_code)
add_list = tree.xpath('//*[@id="userSkin"]/div[2]/div/div[2]/div[1]/div[2]/div/div')
passage_urls = []
for div in add_list:
    passage_urls = div.xpath('//article/a/@href')
print('文章数：{}'.format(len(passage_urls)))

二、对文章链接发送请求

while True:
    for url in passage_urls:
        t = requests.get(url=url, headers=headers)
        t.encoding = 'utf-8'
        p = t.text
        time.sleep(1)

每次请求结束后，延时一秒，防止请求速度过快被网站封禁。

三、获取访问量更新时间

获取文章访问量，采用re方法比较简单。使用time函数来获取时间。
检测访问量更新时间思路如下：将访问量分为前一循环的旧访问量和当前循环的新访问量，用if条件判断两次访问量的大小关系，若新访问量大于旧访问量，则输出此时的时间差。然后初始化循环开始时间，将当前访问量赋值给旧访问量，下次循环结束后重新获取新访问量。
代码如下：

 url_main = 'https://blog.csdn.net/Aqqw231?spm=1000.2115.3001.5343'
    page_code = requests.get(url=url_main, headers=headers)
    page_code.encoding = 'utf-8'
    page_text = page_code.text
    num = re.findall(
        '<ul data-v-d1dbb6f8><li data-v-d1dbb6f8><div class="user-profile-statistics-num" data-v-d1dbb6f8>(.*?)</div>',
        page_text)
    num_passage = num[0]    # 新访问量
    if ',' in num_passage:  # 删除’1,002‘中的逗号
        num_passage = num_passage.replace(',', '')

    # 判断访问量是否增长，访问量增长之后进行相关参数输出，即旧访问量大于新访问量。旧访问量即为上一个循环结束时的访问量
    if int(num_passage) > int(num_old):
        end_time = time.time()  # 访问量增长时的时间
        print('第{}次访问，总访问量：{}，用时{:.2f}秒'.format(i, num_passage, end_time - start_time))
        start_time = time.time()    # 初始化循环开始时间
    num_old = num_passage   # 将当前访问量赋值给旧访问量//更新旧访问量
    i += 1  # 循环次数加一
    time.sleep(1)

四、完整代码

import requests
import time
import re
from lxml import etree
from fake_useragent import UserAgent

# 获取所有文章链接
url = 'https://blog.csdn.net/Aqqw231'
headers = {"User-Agent": str(UserAgent().random)}
page_code = requests.get(url, headers=headers)
page_code.encoding = 'utf-8'
page_code = page_code.text
tree = etree.HTML(page_code)
add_list = tree.xpath('//*[@id="userSkin"]/div[2]/div/div[2]/div[1]/div[2]/div/div')
passage_urls = []
for div in add_list:
    passage_urls = div.xpath('//article/a/@href')
print('文章数：{}'.format(len(passage_urls)))

# 对文章循环发送get请求，增加访问量
start_time = time.time()
i = 1   # 循环次数记录
num_passage = 0  # 定义访问数量
num_old = num_passage  # 定义旧访问数，用来判断访问量是否增长
while True:
    for url in passage_urls:
        t = requests.get(url=url, headers=headers)
        t.encoding = 'utf-8'
        p = t.text
        time.sleep(1)
    # 获取访问量
    url_main = 'https://blog.csdn.net/Aqqw231?spm=1000.2115.3001.5343'
    page_code = requests.get(url=url_main, headers=headers)
    page_code.encoding = 'utf-8'
    page_text = page_code.text
    num = re.findall(
        '<ul data-v-d1dbb6f8><li data-v-d1dbb6f8><div class="user-profile-statistics-num" data-v-d1dbb6f8>(.*?)</div>',
        page_text)
    num_passage = num[0]    # 新访问量
    if ',' in num_passage:  # 删除’1,002‘中的逗号
        num_passage = num_passage.replace(',', '')

    # 判断访问量是否增长，访问量增长之后进行相关参数输出，即旧访问量大于新访问量。旧访问量即为上一个循环结束时的访问量
    if int(num_passage) > int(num_old):
        end_time = time.time()  # 访问量增长时的时间
        print('第{}次访问，总访问量：{}，用时{:.2f}秒'.format(i, num_passage, end_time - start_time))
        start_time = time.time()    # 初始化循环开始时间
    num_old = num_passage   # 将当前访问量赋值给旧访问量//更新旧访问量
    i += 1  # 循环次数加一
    time.sleep(1)