记录:学习网站SEO之 robots.txt 和网站地图 sitemap

前面之所以大费周章得搞预渲染和动态meta,都是为了让爬虫更好的爬取我们的网站,接下来记录的是SEO中最基础也是最有用的:  robots.txt 和网站地图 sitemap

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

 Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

 因为我的服务器带宽较小,配置也一般,所以我的robots.txt设置成这样:

User-agent: *
Disallow: /css/
Disallow: /fonts/
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Sitemap: https://www.baidu.com/sitemap.xml

其中

User-agent:* 是指可以然后任何爬虫来爬取页面

Disallow: ***   是指不允许爬虫爬取的页面或者目录(这里我禁止了图片的爬取,主要是服务器配置不高,这样可以在一定程度上防盗链,减轻服务器压力)

Sitemap:***   是告诉爬虫网站地图的位置使其更方便爬取

接下来说说网站地图 sitemap,规则咋看上去有点乱,一般怕写错可以在网站搜一下专门生成sitemap的网站来爬取生成。sitemap可以有多重格式,一般都是采用xml格式。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
 <loc>https://www.baidu.com/Home</loc>
 <mobile:mobile type="pc,mobile" />
 <priority>0.5</priority>
 <lastmod>2019-07-21</lastmod>
 <changefreq>weekly</changefreq>
</url>
</urlset>

上面时间最简单的形式,只有一个页面的信息告知爬虫该页面的网址、可用来访问的设备、优先级、最近更新和更新频率等信息。

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值