Python备份CSDN博客

使用Python实现的功能,将指定用户的CSDN博客备份为HTML格式,存放在当前目录的用户文件夹中。目前尚未开启多线程,存在反盗链处理问题,以及文件名优化等待改进。感谢技术交流群里的帮助,已了解join用法,资源分享经历了一些波折。
摘要由CSDN通过智能技术生成

用Python实现备份CSDN博客:

功能:备份输入user的所有博文到当前目录下的user文件夹内(html格式)

不足:暂时还没开多线程,并且反盗链之类还没有处理(虽然转载的文章一般都是保存没反盗链的图,但是,还是一个不足),然后就是语言的精简还需提高,比如文件名修正,应该可以用循环匹配查找…………

谢谢python技术交流群里的菜鱼和xiao等前辈的指导,编码问题给我郁闷了好久,欢迎大家拍砖。

————————

添加多线程,知道join了,呵呵

转为的exe版本见0分下载页http://download.csdn.net/detail/betabin/4377512

————————

上面的exe资源被Csdn删掉了,这能接受,可是连事后通知都没有,这有点………

貌似又恢复了……这…………

————————

把文件名的过滤用sub替代,减去冗余代码

会python的就自己脚本跑吧。

# -*- coding: cp936 -*-
'''
Author: BetaBin
Date: 2012/06/16
Function: Backup the csdn blog.
'''
import urllib
import urllib2
import os
import re
import traceback
import threading
import datetime

#Global data
#日志链接,相对路径:日志名
blogurl = {}
savednum = 1
threadnum = 5
bloghost = 'http://blog.csdn.net'
bloguser = 'BetaBin'

#获取infourl的html源码utf8编码
def getinfo(infourl, hostsite = ''):
    postdata = urllib.urlencode({})
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
        }
    if hostsite != '':
        print &
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值