没开多久的博客,排名总是显示 千里之外,受到 如何查看CSDN 排名 这篇文章的启发,结合最近学习的爬虫技术写了个小工具。
#-*- coding:utf-8 -*-
import urllib2
import re
url = 'http://m.blog.csdn.net/blog/index?username='
username = raw_input('input your csdn username')
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
request = urllib2.Request(url+username,headers=headers)
response = urllib2.urlopen(request)
content = response.read()
pattern = re.compile('<em>(\w+)</em>')
personal_list = re.findall(pattern,content)
rank = personal_list[1]
print username,'rank:',rank
一开始没有headers这一行,直接报错了
HTTPError: Forbidden
后来参考了这篇https://www.douban.com/note/131370224/解决了。