#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date : 2018-03-25 22:11:35
# @Author : awakeljw
# @Link : http://blog.csdn.net/awakeljw/
# @Version : $Id$
import os
import re
import time
import urllib.request
from bs4 import BeautifulSoup
from threading import Timer
# filename = r'F:\wargame\title.txt'
# if not os.path.exists(filename):
# os.system(r"touch %s" % filename)
def get_n_title():
url = 'https://blog.csdn.net/awakeljw'
user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
HEADERS = {"User-Agent":user_agent}
req = urllib.request.Request(url, headers=HEADERS) #伪装浏览器访问
page = urllib.request.urlopen(req).read()

该博客介绍了如何使用Python的Timer模块和BeautifulSoup库,每隔60秒爬取并更新CSDN博客的访问量。通过伪装浏览器访问网页,解析HTML获取访问量信息,并将其保存到文件。此外,还提到了其他定时执行任务的方法,如Windows计划任务和Linux的crontab。
最低0.47元/天 解锁文章
1293

被折叠的 条评论
为什么被折叠?



