python seo 采集内容_图文介绍Python文章采集工具使用

这里用卢松松博客与我自己的博客作为例子,给大家介绍使用Python写的文章采集工具。

一、卢松松博客文章的采集

1、打开设置shezhi.xls,按照下面步骤设置

a、主域名下面填写https://lusongsong.com,记住域名后面的/不能要,否则会出错。

b、是否有翻页,但凡你要抓取的内容超过了一页,我们这里都选择Y,反之则选择N。

c、输入页码前面的部分

https://lusongsong.com/default_

d、输入页码后面的部分

.html

e、从哪一页开始抓

因为卢松松博客第一页是https://lusongsong.com/default,与后面的翻页页面规律不一样,所以这里我们从第二页开始抓,填写2就可以了

f、结束于哪一页

这里我们随便写,只要不是超过其原有的总页数就可以了,这里我就写抓取到第五页,填写5就可以了

g、输入标签

这里是需要找到文章列表在页面的什么地方,通常都会是一个div包含起来的,卢松松博客也确实是div包含起来的。所以这里填写div

9c0417f077d7f070debb64bd921dc595.png

怎么找这个div

鼠标选中当前文章列表页中的某一篇文章,右键网页,点击审查元素,就会出现对应的文章被包含在什么html元素下,我们沿着这个往上找,一层一层的点,就能找到,整个文章列表页的位置。

h、标签属性有ID与class两种,卢松松博客里是class,所以这里我们填写class

469211bcec324e491620710c7b30a319.png

i、属性值也就是id或者class后面的值,这里是nbcontent,所以填写nbcontent

j、起始位置与结束位置,这里是要找到每一篇文章的URL

这里沿用g步骤,找到某一篇文章,右键点击审查元素,就可以找到,这里是

k、标题的起始位置与结束位置

打开某一篇文章的链接,进入文章页,同样鼠标选中标题,右键网页,审查元素

这里看到最靠近标题位置的是这一块代码rel="bookmark">,结束位置这里是一个a标签的结束标志

,为了正确,我们要看看是不是唯一的,右键网页,查看源代码,查找rel="bookmark">,这里只有一个,所以这样写没问题,如果有好几个,我们后面结束位置就要从新选择,要保证唯一性,这样才能准确找到标题。

l、内容起始位置设置

打开文章页的网页源代码,看文章第一句话前面的标志与文章最后一句话的标志。由于每篇文章有所不同,我们要多打开几篇文章看看,以保证,起始位置的包含所有页面的文章内容,防止有些网页文章内容抓不全。

m、缓冲时间,卢松松博客貌似有简单的反爬虫设置,这里我们需要设置下缓冲时间,这里我设置的是3,能够全部爬完,你可以设置小一点,如果不能爬完,再往大的设置。

全部设置完成后,如下图

bc274708bcf49c2acb2d30ce88452f72.png

ca6ec38e73d3a4d3e6f7ee288a1a9558.png

da56ad0c1c0b7ee3e93a16c6a679afb7.png

ea2df45906dd3a13ba5f8cdf098387b5.png

c546f7d9676913ab90c653fb069e905c.png

接下来就是启动程序了,点击ads.exe,执行哪一行数据,这里因为我们写1,记住你在2下面设置的,就写1,在3下面设置的就写2,以此类推。

二、我自己的博客

爬取SEO基础的文章,由于第一URL是http://www.liaojinhua.com/seojichu/,第二页是http://www.liaojinhua.com/seojichu/2/,所以第一页数据暂时不爬。

重复以上步骤,设置完成后如下图;

fee3c27c28eecf00ade7ee3a5998d800.png

关注下面公众号,回复采集工具,获取下载链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值