用Python实现备份CSDN博客:
功能:备份输入user的所有博文到当前目录下的user文件夹内(html格式)
不足:暂时还没开多线程,并且反盗链之类还没有处理(虽然转载的文章一般都是保存没反盗链的图,但是,还是一个不足),然后就是语言的精简还需提高,比如文件名修正,应该可以用循环匹配查找…………
谢谢python技术交流群里的菜鱼和xiao等前辈的指导,编码问题给我郁闷了好久,欢迎大家拍砖。
————————
添加多线程,知道join了,呵呵
转为的exe版本见0分下载页http://download.csdn.net/detail/betabin/4377512
————————
上面的exe资源被Csdn删掉了,这能接受,可是连事后通知都没有,这有点………
貌似又恢复了……这…………
————————
把文件名的过滤用sub替代,减去冗余代码
会python的就自己脚本跑吧。
# -*- coding: cp936 -*-
'''
Author: BetaBin
Date: 2012/06/16
Function: Backup the csdn blog.
'''
import urllib
import urllib2
import os
import re
import traceback
import threading
import datetime
#Global data
#日志链接,相对路径:日志名
blogurl = {}
savednum = 1
threadnum = 5
bloghost = 'http://blog.csdn.net'
bloguser = 'BetaBin'
#获取infourl的html源码utf8编码
def getinfo(infourl, hostsite = ''):
postdata = urllib.urlencode({})
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
if hostsite != '':
print &