python写博客_用Python编写博客导出工具

用Python编写博客导出工具

CC 许可,转载请注明出处

写在前面的话

我在 github 上用 octopress 搭建了个人博客。octopress 使用Markdown语法编写博文。之前我在CSDN博客上也写过不少的技术博文。都说自己的孩子再丑也是个宝。所以就起了把CSDN博客里面的文章导出到个人博客上的念头。刚開始想找个工具把CSDN博客导出为xml或文本。然后再把xml或文本转换为Markdown博文。可惜搜了一下现有博客导出工具。大部分要收费才干将全部博文导出为xml格式。所以就仅仅好发明轮子了:写个工具将全部博文导出为Markdown博文(也是txt格式的)。

我将具体介绍这个工具的编写过程,希望没有学习过编程的人也能够学会一些简单的Python语法来改动这个脚本工具。以满足他们将其它类型的博客导出为文本格式。

这也是我第一次学习和使用Python,所以相信我。你一定也能够将自己的博客导出为想要的文本格式。

考虑到大部分非程序猿使用Windows系统。以下将介绍在Windows下怎样编写这个工具。

下载工具

在 Windows 下安装Python开发环境(Linux/Mac下用pip安装相应包就可以。程序猿自己解决咯):

Python 2.7.3

请安装这个版本号。更高版本号的Python与一些库不兼容。

下载页面

完成下载双击可运行文件进行安装。默认安装在C:\Python2.7。

six

下载页面 完成下载,解压到Python安装文件夹下。如C:\Python2.7\six-1.8.0文件夹下。

BeautifulSoup 4.3.2

下载页面, 完成下载,解压到Python安装文件夹下,如C:\Python2.7\BeautifulSoup文件夹下。

html5lib

下载页面 完成下载,解压到Python安装文件夹下。如C:\Python2.7\html5lib-0.999文件夹下。

安装工具

Windows下启动命令行,依次进入例如以下文件夹,运行setup.py install进行安装:C:\Python2.7\six-1.8.0>setup.py install

C:\Python2.7\html5lib-0.999>setup.py install

C:\Python2.7\BeautifulSoup>setup.py install

參考文档

用到的Python语法

这个工具仅仅用到了一些主要的Python语法。假设你没有Python基础。略微了解一下例如以下博文是非常有优点的。

编写博客导出工具

分析

首先来分析这样一个工具的需求:导出全部CSDN博客文章为Markdown文本。

这个总需求事实上能够分两步来做:* 获得CSDN博客文章

* 将文章转换为Markdown文本

针对第一步:怎样获取博客文章呢?

打开不论什么一个CSDN博客,我们都能够看到下方的页面导航显示“XXX条数据 共XXX页 1 2 3 … 尾页”,我们从这个地方入手考虑。每一个页面上都会显示属于该页的文章标题及文章链接,假设我们依次訪问这些页面链接,就能从每一个页面链接中找出属于该页面的文章标题及文章链接。

这样全部的文章标题以及文章链接就都获取到了,有了这些文章链接,我们就能获取相应文章的html内容。然后通过解析这些html页面来生成相应Markdown文本了。

实现

从上面的分析能够看出。首先我们须要依据首页获取全部的页面链接,然后遍历每一个页面链接来获取文章链接。获取页面链接的代码:def getPageUrlList(url):# 获取全部的页面的 urlrequest = urllib2.Request(url, None, header)response = urllib2.urlopen(request)data = response.read()#print datasoup = BeautifulSoup(data)lastArticleHref = NonepageListDocs = soup.find_all(id="papelist")for pageList in pageListDocs:hrefDocs = pageList.find_all("a")if len(hrefDocs) > 0:lastArticleHrefDoc = hrefDocs[len(hrefDocs) - 1]lastArticleHref = lastArticleHrefDoc["href"].encode('UTF-8')if lastArticleHref == None:return []#print " > last page href:" + lastArticleHreflastPageIndex = lastArticleHref.rfind("/")lastPageNum = int(lastArticleHref[lastPageIndex+1:])urlInfo = "http://blog.csdn.net" + lastArticleHref[0:lastPageIndex]pageUrlList = []for x in xrange(1, lastPageNum + 1):pageUrl = urlInfo + "/" + str(x)pageUrlList.append(pageUrl)log(" > page " + str(x) + ": " + pageUrl)log("total pages: " + str(len(pageUrlList)) + "\n")return pageUrlList

參数 url = “http://blog.csdn.net/” + username,即你首页的网址。通过urllib2库打开这个url发起一个web请求,从response中获取返回的html页面内容保存到data中。你能够被凝视的 print data 来查看究竟返回了什么内容。

有了html页面内容,接下来就用BeautifulSoup来解析它。

BeautifulSoup极大地降低了我们的工作量。我会具体在这里介绍它的使用,后面再次出现相似的解析就会从略了。soup.find_all(id=“papelist”) 将会查找html页面中全部id=“papelist”的tag,然后返回包括这些tag的list。相应 CSDN 博文页面来说,仅仅有一处地方:

236条数据 共12页 1 2 3 4 5 ... 下一页 尾页

好,我们获得了papelist 的tag对象,通过这个tag对象我们能够找出尾页tag a对象,从这个tag a解析出相应的href属性,获得尾页的编号12。然后自己拼出全部page页面的訪问url来。并保存在pageUrlList中返回。page页面的訪问url形式示比例如以下:> page 1: http://blog.csdn.net/kesalin/article/list/1依据page来获取文章链接的代码:def getArticleList(url):# 获取全部的文章的 url/titlepageUrlList = getPageUrlList(url)articleListDocs = []strPage = " > parsing page {0}"pageNum = 0global gRetryCountfor pageUrl in pageUrlList:retryCount = 0pageNum = pageNum + 1pageNumStr = strPage.format(pageNum)print pageNumStrwhile retryCount <= gRetryCount:try:retryCount = retryCount + 1time.sleep(1.0) #訪问太快会不响应request = urllib2.Request(pageUrl, None, header)response = urllib2.urlopen(request)data = response.read().decode('UTF-8')#print datasoup = BeautifulSoup(data)topArticleDocs = soup.find_all(id="article_toplist")articleDocs = soup.find_all(id="article_list")articleListDocs = articleListDocs + topArticleDocs + articleDocsbreakexcept Exception, e:print "getArticleList exception:%s, url:%s, retry count:%d" % (e, pageUrl, retryCount)passartices = []topTile = "[置顶]"for articleListDoc in articleListDocs:linkDocs = articleListDoc.find_all("span", "link_title")for linkDoc in linkDocs:#print linkDoc.prettify().encode('UTF-8')link = linkDoc.aurl = link["href"].encode('UTF-8')title = link.get_text().encode('UTF-8')title = title.replace(topTile, '').strip()oneHref = "http://blog.csdn.net" + url#log(" > title:" + title + ", url:" + oneHref)artices.append([oneHref, title])log("total articles: " + str(len(artices)) + "\n")return artices

从第一步获得全部的page链接保存在pageUrlList中。接下来就依据这些page 页面来获取相应page的article链接和标题。关键代码是以下这三行:topArticleDocs = soup.find_all(id="article_toplist")

articleDocs = soup.find_all(id="article_list")

articleListDocs = articleListDocs + topArticleDocs + articleDocs

从page的html内容中查找置顶的文章(article_toplist)以及普通的文章(article_list)的tag对象。然后将这些tag保存到articleListDocs中。

article_toplist演示样例:(article_list的格式是相似的)

[置顶]招聘:有兴趣做一个与Android对等的操作系统么?

... ...
... ...

然后遍历全部的保存到articleListDocs里的tag对象,从中解析出link_title的span tag对象保存到linkDocs中;然后从中解析出链接的url和标题,这里去掉了置顶文章标题中的“置顶”两字;最后将url和标题保存到artices列表中返回。artices列表中的每一项内容演示样例:依据文章链接获取文章html内容并解析转换为Markdown文本def download(url, output):# 下载文章。并保存为 markdown 格式log(" >> download: " + url)data = Nonetitle = ""categories = ""content = ""postDate = datetime.datetime.now()global gRetryCountcount = 0while True:if count >= gRetryCount:breakcount = count + 1try:time.sleep(2.0) #訪问太快会不响应request = urllib2.Request(url, None, header)response = urllib2.urlopen(request)data = response.read().decode('UTF-8')breakexcept Exception,e:exstr = traceback.format_exc()log(" >> failed to download " + url + ", retry: " + str(count) + ", error:" + exstr)passif data == None:log(" >> failed to download " + url)return#print datasoup = BeautifulSoup(data)topTile = "[置顶]"titleDocs = soup.find_all("div", "article_title")for titleDoc in titleDocs:titleStr = titleDoc.a.get_text().encode('UTF-8')title = titleStr.replace(topTile, '').strip()#log(" >> title: " + title)manageDocs = soup.find_all("div", "article_manage")for managerDoc in manageDocs:categoryDoc = managerDoc.find_all("span", "link_categories")if len(categoryDoc) > 0:categories = categoryDoc[0].a.get_text().encode('UTF-8').strip()postDateDoc = managerDoc.find_all("span", "link_postdate")if len(postDateDoc) > 0:postDateStr = postDateDoc[0].string.encode('UTF-8').strip()postDate = datetime.datetime.strptime(postDateStr, '%Y-%m-%d%H:%M')contentDocs = soup.find_all(id="article_content")for contentDoc in contentDocs:htmlContent = contentDoc.prettify().encode('UTF-8')content = htmlContent2String(htmlContent)exportToMarkdown(output, postDate, categories, title, content)

同前面的分析相似,在这里通过訪问具体文章页面获得html内容,从中解析出文章标题。分类,发表时间,文章内容信息。

然后把这些内容传递给函数exportToMarkdown。在当中生成相应的Markdown文本文件。

值得一提的是。在解析文章内容信息时,因为html文档内容有一些特殊的标签或转义符号,须要作特殊处理。这些特殊处理在函数htmlContent2String中进行。

眼下仅仅导出了全部的文本内容,图片,url链接以及表格都没有处理,兴许我会尽量完好这些转换。def htmlContent2String(contentStr):patternImg = re.compile(r'()')patternHref = re.compile(r'(

href=")(.+?

)(".+?

>)(.+?)()')

patternRemoveHtml = re.compile(r'?

[^>]+>')

resultContent = patternImg.sub(r'![image_mark](\2)', contentStr)resultContent = patternHref.sub(r'[\4](\2)', resultContent)resultContent = re.sub(patternRemoveHtml, r'', resultContent)resultContent = decodeHtmlSpecialCharacter(resultContent)return resultContent

眼下仅仅是删除全部的html标签。并在函数decodeHtmlSpecialCharacter中转换转义字符。

生成Markdown文本文件def exportToMarkdown(exportDir, postdate, categories, title, content):titleDate = postdate.strftime('%Y-%m-%d')contentDate = postdate.strftime('%Y-%m-%d%H:%M:%S %z')filename = titleDate + '-' + titlefilename = repalceInvalidCharInFilename(filename)filepath = exportDir + '/' + filename + '.markdown'log(" >> save as " + filename)newFile = open(unicode(filepath, "utf8"), 'w')newFile.write('---' + '\n')newFile.write('layout: post' + '\n')newFile.write('title:\"' + title + '\"\n')newFile.write('date: ' + contentDate + '\n')newFile.write('comments: true' + '\n')newFile.write('categories: [' + categories + ']' + '\n')newFile.write('tags: [' + categories + ']' + '\n')newFile.write('description:\"' + title + '\"\n')newFile.write('keywords: ' + categories + '\n')newFile.write('---' + '\n\n')newFile.write(content)newFile.write('\n')newFile.close()

生成Markdown文本文件就非常easy了。在这里我须要生成github page用的Markdown博文形式。所以内容如此。你能够依据你的须要改动为其它形式的文本内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值