如何用python做软件导出cad_用Python编写博客导出工具

最新推荐文章于 2023-11-28 13:50:03 发布

weixin_39898150

最新推荐文章于 2023-11-28 13:50:03 发布

阅读量218

点赞数

文章标签：如何用python做软件导出cad

写在前面的话

我在 github 上用 octopress 搭建了个人博客，octopress 使用Markdown语法编写博文。之前我在CSDN博客上也写过不少的技术博文，都说自己的孩子再丑也是个宝，所以就起了把CSDN博客里面的文章导出到个人博客上的念头。刚开始想找个工具把CSDN博客导出为xml或文本，然后再把xml或文本转换为Markdown博文。可惜搜了一下现有博客导出工具，大部分要收费才能将全部博文导出为xml格式，所以就只好发明轮子了：写个工具将全部博文导出为Markdown博文(也是txt格式的)。

我将详细介绍这个工具的编写过程，希望没有学习过编程的人也能够学会一些简单的Python语法来修改这个脚本工具，以满足他们将其他类型的博客导出为文本格式。这也是我第一次学习和使用Python，所以相信我，你一定也可以将自己的博客导出为想要的文本格式。

考虑到大部分非程序员使用Windows系统，下面将介绍在Windows下如何编写这个工具。

下载工具

在 Windows 下安装Python开发环境(Linux/Mac下用pip安装相应包即可，程序员自己解决咯)：

Python 2.7.3

请安装这个版本，更高版本的Python与一些库不兼容。

下载页面

下载完毕双击可执行文件进行安装，默认安装在C:\Python2.7。

six

下载页面下载完毕，解压到Python安装目录下，如C:\Python2.7\six-1.8.0目录下。

BeautifulSoup 4.3.2

下载页面，下载完毕，解压到Python安装目录下，如C:\Python2.7\BeautifulSoup目录下。

html5lib

下载页面下载完毕，解压到Python安装目录下，如C:\Python2.7\html5lib-0.999目录下。

安装工具

Windows下启动命令行，依次进入如下目录，执行setup.py install进行安装：

C:\Python2.7\six-1.8.0>setup.py install

C:\Python2.7\html5lib-0.999>setup.py install

C:\Python2.7\BeautifulSoup>setup.py install

参考文档

用到的Python语法

这个工具只用到了一些基本的Python语法，如果你没有Python基础，稍微了解一下如下博文是很有好处的。

dictionary: 字典操作，参考Python中dict详解

编写博客导出工具

分析

首先来分析这样一个工具的需求：

导出所有CSDN博客文章为Markdown文本。

这个总需求其实可以分两步来做：

* 获得CSDN博客文章

* 将文章转换为Markdown文本

针对第一步：如何获取博客文章呢？

打开任何一个CSDN博客，我们都可以看到下方的页面导航显示“XXX条数据共XXX页 1 2 3 … 尾页”，我们从这个地方入手考虑。每个页面上都会显示属于该页的文章标题及文章链接，如果我们依次访问这些页面链接，就能从每个页面链接中找出属于该页面的文章标题及文章链接。这样所有的文章标题以及文章链接就都获取到了，有了这些文章链接，我们就能获取对应文章的html内容，然后通过解析这些html页面来生成相应Markdown文本了。

实现

从上面的分析可以看出，首先我们需要根据首页获取所有的页面链接，然后遍历每一个页面链接来获取文章链接。

获取页面链接的代码：

def getPageUrlList(url):

# 获取所有的页面的 url

request = urllib2.Request(url, None, header)

response = urllib2.urlopen(request)

data = response.read()

#print data

soup = BeautifulSoup(data)

lastArticleHref = None

pageListDocs = soup.find_all(id="papelist")

for pageList in pageListDocs:

hrefDocs = pageList.find_all("a")

if len(hrefDocs) > 0:

lastArticleHrefDoc = hrefDocs[len(hrefDocs) - 1]

lastArticleHref = lastArticleHrefDoc["href"].encode('UTF-8')

if lastArticleHref == None:

return []

#print " > last page href:" + lastArticleHref

lastPageIndex = lastArticleHref.rfind("/")

lastPageNum = int(lastArticleHref[lastPageIndex+1:])

urlInfo = "http://blog.csdn.net" + lastArticleHref[0:lastPageIndex]

pageUrlList = []

for x in xrange(1, lastPageNum + 1):

pageUrl = urlInfo + "/" + str(x)

pageUrlList.append(pageUrl)

log(" > page " + str(x) + ": " + pageUrl)

log("total pages: " + str(len(pageUrlList)) + "\n")

return pageUrlList

参数 url = “http://blog.csdn.net/” + username，即你首页的网址。通过urllib2库打开这个url发起一个web请求，从response中获取返回的html页面内容保存到data中。你可以被注释的 print data 来查看到底返回了什么内容。

有了html页面内容，接下来就用BeautifulSoup来解析它。BeautifulSoup极大地减少了我们的工作量。我会详细在这里介绍它的使用，后面再次出现类似的解析就会从略了。soup.find_all(id=“papelist”) 将会查找html页面中所有id=“papelist”的tag，然后返回包含这些tag的list。对应 CSDN 博文页面来说，只有一处地方：

236条数据共12页

...

尾页

好，我们获得了papelist 的tag对象，通过这个tag对象我们能够找出尾页tag a对象，从这个tag a解析出对应的href属性，获得尾页的编号12，然后自己拼出所有page页面的访问url来，并保存在pageUrlList中返回。page页面的访问url形式示例如下：

> page 1: http://blog.csdn.net/kesalin/article/list/1

根据page来获取文章链接的代码：

def getArticleList(url):

# 获取所有的文章的 url/title

pageUrlList = getPageUrlList(url)

articleListDocs = []

strPage = " > parsing page {0}"

pageNum = 0