python seo 采集内容_图文介绍Python文章采集工具使用

weixin_39573535

于 2021-02-09 06:23:03 发布

阅读量228

点赞数

文章标签： python seo 采集内容

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39573535/article/details/113963780

版权

这里用卢松松博客与我自己的博客作为例子，给大家介绍使用Python写的文章采集工具。

一、卢松松博客文章的采集

1、打开设置shezhi.xls，按照下面步骤设置

a、主域名下面填写https://lusongsong.com，记住域名后面的/不能要，否则会出错。

b、是否有翻页，但凡你要抓取的内容超过了一页，我们这里都选择Y，反之则选择N。

c、输入页码前面的部分

https://lusongsong.com/default_

d、输入页码后面的部分

.html

e、从哪一页开始抓

因为卢松松博客第一页是https://lusongsong.com/default，与后面的翻页页面规律不一样，所以这里我们从第二页开始抓，填写2就可以了

f、结束于哪一页

这里我们随便写，只要不是超过其原有的总页数就可以了，这里我就写抓取到第五页，填写5就可以了

g、输入标签

这里是需要找到文章列表在页面的什么地方，通常都会是一个div包含起来的，卢松松博客也确实是div包含起来的。所以这里填写div

怎么找这个div

鼠标选中当前文章列表页中的某一篇文章，右键网页，点击审查元素，就会出现对应的文章被包含在什么html元素下，我们沿着这个往上找，一层一层的点，就能找到，整个文章列表页的位置。

h、标签属性有ID与class两种，卢松松博客里是class，所以这里我们填写class

i、属性值也就是id或者class后面的值，这里是nbcontent，所以填写nbcontent

j、起始位置与结束位置，这里是要找到每一篇文章的URL

这里沿用g步骤，找到某一篇文章，右键点击审查元素，就可以找到，这里是

k、标题的起始位置与结束位置

打开某一篇文章的链接，进入文章页，同样鼠标选中标题，右键网页，审查元素

这里看到最靠近标题位置的是这一块代码rel="bookmark">，结束位置这里是一个a标签的结束标志

，为了正确，我们要看看是不是唯一的，右键网页，查看源代码，查找rel="bookmark">，这里只有一个，所以这样写没问题，如果有好几个，我们后面结束位置就要从新选择，要保证唯一性，这样才能准确找到标题。

l、内容起始位置设置

打开文章页的网页源代码，看文章第一句话前面的标志与文章最后一句话的标志。由于每篇文章有所不同，我们要多打开几篇文章看看，以保证，起始位置的包含所有页面的文章内容，防止有些网页文章内容抓不全。

m、缓冲时间，卢松松博客貌似有简单的反爬虫设置，这里我们需要设置下缓冲时间，这里我设置的是3，能够全部爬完，你可以设置小一点，如果不能爬完，再往大的设置。

全部设置完成后，如下图

接下来就是启动程序了，点击ads.exe,执行哪一行数据，这里因为我们写1，记住你在2下面设置的，就写1，在3下面设置的就写2，以此类推。

二、我自己的博客

爬取SEO基础的文章，由于第一URL是http://www.liaojinhua.com/seojichu/，第二页是http://www.liaojinhua.com/seojichu/2/，所以第一页数据暂时不爬。

重复以上步骤，设置完成后如下图；

关注下面公众号，回复采集工具，获取下载链接

weixin_39573535

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。