Python备份CSDN博客

最新推荐文章于 2024-08-06 09:33:10 发布

BetaBin

最新推荐文章于 2024-08-06 09:33:10 发布

阅读量4.4k

点赞数

分类专栏： Python 文章标签： python blogs 多线程 blog url

本文链接：https://blog.csdn.net/BetaBin/article/details/7669200

版权

使用Python实现的功能，将指定用户的CSDN博客备份为HTML格式，存放在当前目录的用户文件夹中。目前尚未开启多线程，存在反盗链处理问题，以及文件名优化等待改进。感谢技术交流群里的帮助，已了解join用法，资源分享经历了一些波折。

摘要由CSDN通过智能技术生成

用Python实现备份CSDN博客：

功能：备份输入user的所有博文到当前目录下的user文件夹内（html格式）

不足：暂时还没开多线程，并且反盗链之类还没有处理（虽然转载的文章一般都是保存没反盗链的图，但是，还是一个不足），然后就是语言的精简还需提高，比如文件名修正，应该可以用循环匹配查找…………

谢谢python技术交流群里的菜鱼和xiao等前辈的指导，编码问题给我郁闷了好久，欢迎大家拍砖。

————————

添加多线程，知道join了，呵呵

转为的exe版本见0分下载页http://download.csdn.net/detail/betabin/4377512

————————

上面的exe资源被Csdn删掉了，这能接受，可是连事后通知都没有，这有点………

貌似又恢复了……这…………

————————

把文件名的过滤用sub替代，减去冗余代码

会python的就自己脚本跑吧。

# -*- coding: cp936 -*-
'''
Author: BetaBin
Date: 2012/06/16
Function: Backup the csdn blog.
'''
import urllib
import urllib2
import os
import re
import traceback
import threading
import datetime

#Global data
#日志链接，相对路径：日志名
blogurl = {}
savednum = 1
threadnum = 5
bloghost = 'http://blog.csdn.net'
bloguser = 'BetaBin'

#获取infourl的html源码utf8编码
def getinfo(infourl, hostsite = ''):
    postdata = urllib.urlencode({})
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
        }
    if hostsite != '':
        print &