这里用卢松松博客与我自己的博客作为例子,给大家介绍使用Python写的文章采集工具。
一、卢松松博客文章的采集
1、打开设置shezhi.xls,按照下面步骤设置
a、主域名下面填写https://lusongsong.com,记住域名后面的/不能要,否则会出错。
b、是否有翻页,但凡你要抓取的内容超过了一页,我们这里都选择Y,反之则选择N。
c、输入页码前面的部分
https://lusongsong.com/default_
d、输入页码后面的部分
.html
e、从哪一页开始抓
因为卢松松博客第一页是https://lusongsong.com/default,与后面的翻页页面规律不一样,所以这里我们从第二页开始抓,填写2就可以了
f、结束于哪一页
这里我们随便写,只要不是超过其原有的总页数就可以了,这里我就写抓取到第五页,填写5就可以了
g、输入标签
这里是需要找到文章列表在页面的什么地方,通常都会是一个div包含起来的,卢松松博客也确实是div包含起来的。所以这里填写div
![9c0417f077d7f070debb64bd921dc595.png](https://i-blog.csdnimg.cn/blog_migrate/0c1471db51c1d7218828ca0144eb9a78.jpeg)
怎么找这个div
鼠标选中当前文章列表页中的某一篇文章,右键网页,点击审查元素,就会出现对应的文章被包含在什么html元素下,我们沿着这个往上找,一层一层的点,就能找到,整个文章列表页的位置。
h、标签属性有ID与class两种,卢松松博客里是class,所以这里我们填写class
![469211bcec324e491620710c7b30a319.png](https://i-blog.csdnimg.cn/blog_migrate/a06e142876eb744e9cb31bf9b450056f.jpeg)
i、属性值也就是id或者class后面的值,这里是nbcontent,所以填写nbcontent
j、起始位置与结束位置,这里是要找到每一篇文章的URL
这里沿用g步骤,找到某一篇文章,右键点击审查元素,就可以找到,这里是
k、标题的起始位置与结束位置
打开某一篇文章的链接,进入文章页,同样鼠标选中标题,右键网页,审查元素
这里看到最靠近标题位置的是这一块代码rel="bookmark">,结束位置这里是一个a标签的结束标志
,为了正确,我们要看看是不是唯一的,右键网页,查看源代码,查找rel="bookmark">,这里只有一个,所以这样写没问题,如果有好几个,我们后面结束位置就要从新选择,要保证唯一性,这样才能准确找到标题。
l、内容起始位置设置
打开文章页的网页源代码,看文章第一句话前面的标志与文章最后一句话的标志。由于每篇文章有所不同,我们要多打开几篇文章看看,以保证,起始位置的包含所有页面的文章内容,防止有些网页文章内容抓不全。
m、缓冲时间,卢松松博客貌似有简单的反爬虫设置,这里我们需要设置下缓冲时间,这里我设置的是3,能够全部爬完,你可以设置小一点,如果不能爬完,再往大的设置。
全部设置完成后,如下图
![bc274708bcf49c2acb2d30ce88452f72.png](https://i-blog.csdnimg.cn/blog_migrate/a8f4665d72dd4c38c35bd2aa5ede4352.jpeg)
![ca6ec38e73d3a4d3e6f7ee288a1a9558.png](https://i-blog.csdnimg.cn/blog_migrate/38bbea620fe7291af01e77f848656c83.jpeg)
![da56ad0c1c0b7ee3e93a16c6a679afb7.png](https://i-blog.csdnimg.cn/blog_migrate/444f63f28494df293cd28bd3a3e45398.jpeg)
![ea2df45906dd3a13ba5f8cdf098387b5.png](https://i-blog.csdnimg.cn/blog_migrate/7ff25d3956cca0af2d990ff79071c2ee.jpeg)
![c546f7d9676913ab90c653fb069e905c.png](https://i-blog.csdnimg.cn/blog_migrate/118ffa62c8e0878e80b5fe3cfd84779c.jpeg)
接下来就是启动程序了,点击ads.exe,执行哪一行数据,这里因为我们写1,记住你在2下面设置的,就写1,在3下面设置的就写2,以此类推。
二、我自己的博客
爬取SEO基础的文章,由于第一URL是http://www.liaojinhua.com/seojichu/,第二页是http://www.liaojinhua.com/seojichu/2/,所以第一页数据暂时不爬。
重复以上步骤,设置完成后如下图;
![fee3c27c28eecf00ade7ee3a5998d800.png](https://i-blog.csdnimg.cn/blog_migrate/ad48595fd0968856e9b8bfede6ec097d.jpeg)
关注下面公众号,回复采集工具,获取下载链接