如何让自己的网站在搜索引擎中出现

最新推荐文章于 2021-12-13 22:24:17 发布

weixin_30412013

最新推荐文章于 2021-12-13 22:24:17 发布

阅读量124

点赞数

文章标签：爬虫运维

原文链接：http://www.cnblogs.com/cdyboke/p/7069811.html

版权

百度百科-关于爬虫在网站上爬取的内容

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?


User-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: *
Disallow: /

baidu.com/robots.txt

怎么让搜索引擎爬虫抓取自己的网站

最近建了个vps，把自己学校的oj放到了上面，但知道的人不多，后来发现翻墙没怎么用流量，但还是跑了好几g，每天跑几百M左右，于是查了下ssh认证记录，虽然是有人黑，但并没有连上的，而且连个ssh也用不了多少流量吧？在查一下nginx log，发现老是有人访问oj，而且先访问了/robots.txt，把来源搜了一下发现是搜索引擎的爬虫干的，但是oj是放在内网的，外网基本没什么人知道，这个爬虫是如何知道这个网站并爬过来的呢？想了一下应该是从博客园爬过来的，因为我把oj的连接放在了博客园

尽量让自己网站的链接出现在比较热门的网站，如直接放在自己的博客园首页，爬虫爬你某个帖子时就可以爬到那个链接，还可以找一些访问量较高的博主帮忙广告

转载于:https://www.cnblogs.com/cdyboke/p/7069811.html

weixin_30412013

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何让自己的网站在搜索引擎中出现

百度百科-关于爬虫在网站上爬取的内容User-agent: BaiduspiderDisallow: /baiduDisallow: /s?Disallow: /ulink?Disallow: /link?User-agent: GooglebotDisallow: /baiduDisallow: /s?Disallow: /shifen/...
复制链接

扫一扫