python爬虫入门(博客搬家的实现)
python是数据挖掘里最常用的脚本语言之一了,python作为一个很有用的工具,常用来爬取web数据。很无奈,图书馆里的关于爬虫入门的书籍写的都跟渣渣一样,而且大都是以java为主题语言的。刚刚上了网络公开课,打算分享一下如何用python写一个简单的爬虫,我将以爬取我原来的新浪博客的内容为例子来介绍。
其实csdn的博客搬家好像也是类似的,
为了让python自动下载新浪博客上的文章。
首先,需要了解新浪博客的HTML格式特点,我先利用chrome浏览器审查元素,查看每篇文章的标题信息。
<pre name="code" class="html"><a title="将博客搬至CSDN" target="_b