利用python的requests模块,对文章循环发送请求,并记录访问量稳定更新的时间,最终得出如下结论:同一用户在不断对文章发送请求的情况下,访问量60秒左右更新一次。实现过程分析如下:
一、获取主页所有文章链接
CSDN主页的所有文章均位于一个div标签下,仅需用xpath方法即可得到所有文章链接。
代码如下:
url = 'https://blog.csdn.net/Aqqw231'
headers = {"User-Agent": str(UserAgent().random)}
page_code = requests.get(url, headers=headers)
page_code.encoding = 'utf-8'
page_code = page_code.text
tree = etree.HTML(page_code)
add_list = tree.xpath('//*[@id="userSkin"]/div[2]/div/div[2]/div[1]/div[2]/div/div')
passage_urls = []
for div in add_list:
passage_urls = div.xpath('//article/a/@href')
print('文章数:{}'.format(len(passage_urls)))
二、对文章链接发送请求
while True:
for url in passage_urls:
t = requests.get(url=url, headers=headers)
t.encoding = 'utf-8'
p = t.text
time.sleep(1)
每次请求结束后,延时一秒,防止请求速度过快被网站封禁。
三、获取访问量更新时间
获取文章访问量,采用re方法比较简单。使用time函数来获取时间。
检测访问量更新时间思路如下:将访问量分为前一循环的旧访问量和当前循环的新访问量,用if条件判断两次访问量的大小关系,若新访问量大于旧访问量,则输出此时的时间差。然后初始化循环开始时间,将当前访问量赋值给旧访问量,下次循环结束后重新获取新访问量。
代码如下:
url_main = 'https://blog.csdn.net/Aqqw231?spm=1000.2115.3001.5343'
page_code = requests.get(url=url_main, headers=headers)
page_code.encoding = 'utf-8'
page_text = page_code.text
num = re.findall(
'<ul data-v-d1dbb6f8><li data-v-d1dbb6f8><div class="user-profile-statistics-num" data-v-d1dbb6f8>(.*?)</div>',
page_text)
num_passage = num[0] # 新访问量
if ',' in num_passage: # 删除’1,002‘中的逗号
num_passage = num_passage.replace(',', '')
# 判断访问量是否增长,访问量增长之后进行相关参数输出,即旧访问量大于新访问量。旧访问量即为上一个循环结束时的访问量
if int(num_passage) > int(num_old):
end_time = time.time() # 访问量增长时的时间
print('第{}次访问,总访问量:{},用时{:.2f}秒'.format(i, num_passage, end_time - start_time))
start_time = time.time() # 初始化循环开始时间
num_old = num_passage # 将当前访问量赋值给旧访问量//更新旧访问量
i += 1 # 循环次数加一
time.sleep(1)
四、完整代码
import requests
import time
import re
from lxml import etree
from fake_useragent import UserAgent
# 获取所有文章链接
url = 'https://blog.csdn.net/Aqqw231'
headers = {"User-Agent": str(UserAgent().random)}
page_code = requests.get(url, headers=headers)
page_code.encoding = 'utf-8'
page_code = page_code.text
tree = etree.HTML(page_code)
add_list = tree.xpath('//*[@id="userSkin"]/div[2]/div/div[2]/div[1]/div[2]/div/div')
passage_urls = []
for div in add_list:
passage_urls = div.xpath('//article/a/@href')
print('文章数:{}'.format(len(passage_urls)))
# 对文章循环发送get请求,增加访问量
start_time = time.time()
i = 1 # 循环次数记录
num_passage = 0 # 定义访问数量
num_old = num_passage # 定义旧访问数,用来判断访问量是否增长
while True:
for url in passage_urls:
t = requests.get(url=url, headers=headers)
t.encoding = 'utf-8'
p = t.text
time.sleep(1)
# 获取访问量
url_main = 'https://blog.csdn.net/Aqqw231?spm=1000.2115.3001.5343'
page_code = requests.get(url=url_main, headers=headers)
page_code.encoding = 'utf-8'
page_text = page_code.text
num = re.findall(
'<ul data-v-d1dbb6f8><li data-v-d1dbb6f8><div class="user-profile-statistics-num" data-v-d1dbb6f8>(.*?)</div>',
page_text)
num_passage = num[0] # 新访问量
if ',' in num_passage: # 删除’1,002‘中的逗号
num_passage = num_passage.replace(',', '')
# 判断访问量是否增长,访问量增长之后进行相关参数输出,即旧访问量大于新访问量。旧访问量即为上一个循环结束时的访问量
if int(num_passage) > int(num_old):
end_time = time.time() # 访问量增长时的时间
print('第{}次访问,总访问量:{},用时{:.2f}秒'.format(i, num_passage, end_time - start_time))
start_time = time.time() # 初始化循环开始时间
num_old = num_passage # 将当前访问量赋值给旧访问量//更新旧访问量
i += 1 # 循环次数加一
time.sleep(1)