异步抓取网站url最后生成sitemap很好用

作为seoer,在优化网站的时候,肯定离不开对百度站长平台上的监控,而在百度站长平台有一个sitemap文件,可以批量将网站url提交给百度站长平台。

异步抓取网站url最后生成sitemap很好用

我们再来看看百度对sitemap的生成规则,看看百度对sitemap有什么格式要求,这里可以看到百度支持两种格式一种是txt格式,另一种是xml的格式,今天以xml的格式去生成网站的sitemap文件:

异步抓取网站url最后生成sitemap很好用

此次用python生成sitemap,首先需要抓取全站的url,然后将全站的url保存的xml的文件中。这里我用异步加载请求的方式获取全站url,异步的方式有个优势就是节约请求时间,速度快,在应对网站没有反爬虫措施的情况下,可以用异步加载是比较不错的选择

好了,思路有了接下来我们开始写代码:

一、设置抓取的网站

此次用BeautifulSoup进行解析,导入asyncio和aiohttp包和logger生成日志文件

BASE_URL = 'https://www.danmoln.com'

二、请求获取相应url

用BeautifulSoup进行解析获取所有的a标签,再按条件提取url,这里运用的set集合,用set集合对抓取的url进行去重

异步抓取网站url最后生成sitemap很好用

三、主函数创建对象和循环任务

在主函数运用到集合的并集和子集关系,利用这个关系进行循环创建任务和获取最新的url集合,再将最新的url集合并集到主集合中

异步抓取网站url最后生成sitemap很好用

四、保存为sitemap文件

按照百度的格式,对url进行格式处理

异步抓取网站url最后生成sitemap很好用

五、最后运行一下效果

异步抓取网站url最后生成sitemap很好用

异步抓取网站url最后生成sitemap很好用

看来sitemap的文件已经生成好了,接下来我们只要将sitemao文件上传到服务器根目录,然后在百度站长平台生成一下就可以了。有需要代码的,可以私信我

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值