新站如何提交百度sitemap,吸引蜘蛛快速爬取

最近用tp5做了个站 http://www.doc5.cn 多库文档网,新站最头疼的事情莫过于搜索引擎的收录了,没办法不管sitemap提交有用没用都要死马当活马医不是,于是各个站长平台全部注册了一通,总的来说百度还算是最够意思的,sitemap的提交限制较少,其他搜索引擎就不说了有的甚至还要邀请才能提交。废话少说第一步就是要制作sitemap。这个非常简单从百度站长后台找到模板直接制作就好了。
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <urlset>
  3.     {volist name="lists" id='row'}
  4.     <url>
  5.         <loc>{:url('index/content',['path'=>$row->file_path,'id'=>$row['id']],true,true)}</loc>
  6.         <lastmod>{$row.ctime|date="Y-m-d",###}</lastmod>
  7.         <changefreq>always</changefreq>
  8.         <priority>0.5</priority>
  9.         <data>
  10.             <display>
  11.                 <title>{$row.title|preg_replace='/[\\x00-\\x08\\x0b-\\x0c\\x0e-\\x1f&><"\\']/','',###}</title>
  12.                 <content>{$row.description|preg_replace='/[\\x00-\\x08\\x0b-\\x0c\\x0e-\\x1f&><"\\']/','',###}</content>
  13.                 <tag>{$row.keywords|preg_replace='/[\\x00-\\x08\\x0b-\\x0c\\x0e-\\x1f&><"\\']/','',###}</tag>
  14.                 <pubTime>{$row.ctime|date="Y-m-d H:i:s",###}</pubTime>
  15.                 <thumbnail loc="http://www.doc5.cn/static/article/images/{$row.cover|trim}.png"/>
  16.             </display>
  17.         </data>
  18.     </url>
  19.     {/volist}
  20. </urlset>
复制代码
sitemap的规范是单个文件最多包含50000个URL,超过了怎么办,当然是使用分页制作多个sitemap了。当然有很多变态的网站文章数数以亿计,光sitemap文件就要成百上千,这要是一个个提交累死宝宝了,怎么办呢?这时候我们需要用到sitemap索引文件,就是用一个sitemap把所有要提交的sitemap文件都包含了,这样提交一个文件就可以。
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84">
  3.     {volist name="pages" id="row"}
  4.     <sitemap>
  5.         <loc>{:url('index/sitemap',['p'=>$i],true,true)}</loc>
  6.         <lastmod>{$row.ctime|date="Y-m-d H:i:s",###}</lastmod>
  7.     </sitemap>
  8.     {/volist}
  9. </sitemapindex>
复制代码
好了这样索引文件和sitemap文件都制作好了,是不是就大功告成了呢。如果你这样认为你就太傻太天真了。我们的噩梦才刚刚开始,首先你是新站的话是没有权限提交索引文件的,当然新站也用不到索引文件毕竟内容也不多,然后百度会解析你提交的sitemap,一开始为了省事我是动态生成sitemap的,由于文章数较多每次查询输出都要好久,经常出现抓取超时,没办法赶紧生成静态文件吧。终于不超时了,抓狂的事情又出现了解析错误!!!由于我的 http://www.doc5.cn 文章里面经常会有特殊字符,百度解析的时候总是报错,没办法为了一劳永逸我把所有的特殊字符全部替换掉,
  1. {$row.title|preg_replace='/[\\x00-\\x08\\x0b-\\x0c\\x0e-\\x1f&><"\\']/','',###}
复制代码
再次提交终于解析正确了,剩下的就是等待百度抓去了,打开nginx日志望眼欲穿的等待,每次看到
  1. "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
复制代码
的身影心中的激动无语言表。然后惊奇的发现
  1. "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MDDR; .NET4.0C; .NET4.0E; .NET CLR 1.1.4322; Tablet PC 2.0) 360Spider"
复制代码
360也来了,现在就耐心的等待收录吧
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值