推一把SEO的总结

最新推荐文章于 2024-08-12 13:39:03 发布

weixin_34186950

最新推荐文章于 2024-08-12 13:39:03 发布

阅读量108

点赞数

文章标签：数据库 php python

原文链接：https://my.oschina.net/newgoup/blog/535731

版权

2019独角兽企业重金招聘Python工程师标准>>>

2014-10-21

图片的代替属性：ALT

意义：是搜索引擎可以信任的参考点；图片无法显示时，可代替图片的描述性语句；

写法：<img src=”123.jpg” alt=”小狗在吃粮食”>

注意：ALT描述语禁止多样式添加关键词；最佳的描述语是主语+宾语+动词/形容词

黑帽：black hat

使用作弊的方法，让网站排名短时间内高/收录多的做法，最典型的是群发留言增加外链；

链接锚文本：Achor Text

作用：多个网页内有链接锚文本指向A网站，那么A网站的排名就会靠前；

Alexa：是一家发布世界网站排名的网站；评价网站访问量的一个指标；

做法：浏览器植入Alexa 插件，向Alexa 数据库反馈浏览器加载的网页，每三个月统计浏览量和排名；

缺点：对于流量低的站点，精确度不高(并不是每个人都安装Alexa 插件)；对一般个人站点、企业站点、网店等没有实际用途；

百度蜘蛛：Baiduspider

作用：百度用来抓取互联网网页/URL的一个自动程序;抓取后会暂存到数据库中，提供给用户搜索；

类型：不同的搜索有不同的蜘蛛去抓取；有以类型：

网页搜索(baiduspider)、无线(baiduspider—mobile)、图片(baiduspider—image)、视频(baiduspider—video)、

新闻(baiduspider—news)、商务(baiduspider—ads)、百度搜藏(baiduspider—favo)、百度联盟(baiduspider—cpro)；

如何判断是否冒充Baiduspider的抓取？

① Linux 平台：使用host ip 命令来反解ip 来判断，代码如下

$ host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer

Baiduspider-123-125-66-120.crawl.baidu.com

host 119.63.195.254

254.195.63.119.in-addr.arpa domain name pointer

baiduMobaider-119-63-195-254.crawl.baidu.jp

② window / IBM OS/2 平台：使用 nslookup ip 命令反解ip 来判断，方法如下

打开命令处理器输入 nslookup xxxx.xxx.xxx.xxx( ip 地址) 就能解析ip

③ mac os 平台：使用dig 命令反解ip 来判断，方法如下

打开命令处理器输入 dig xxxx.xxx.xxx.xxx( ip 地址) 就能解析ip

注意：baiduspider 的hostname 的格式命名为 *.baidu.com 或者 *.baidu.jp ，如果不是即为冒充

如果网站不想被baiduspider 访问，怎么办？方法如下：

可以利用robots.txt 文件完全禁止或者部分禁止baiduspider 访问网站；

常见的访问权限设置（标志置入网页内）：

①不想蜘蛛追踪此网页链接和不传递链接的权重：

< meta name = “robots.txt” content =”nofollow”>

②不想蜘蛛追踪某一条特定链接：

< a href =”signin.php” rel=”nofollow”> sign in</a>

③允许其它搜索引擎跟踪，但是防止百度跟踪网页的链接：

< meta name =”Baiduspider” content =”nofollow”>

④防止所有搜索引擎显示网站的快照：

< meta name =”robots” content =”noarchive”>

⑤允许其它搜索引擎显示快照，但仅仅防止百度显示：

< meta name =”Baduspider” content = “noarchive”>

熟练掌握robots.txt 文件

什么是robots.txt 文件：放在网站根域下的一个robots.txt 纯文本文件，这个文件可以指定baiduspider 在这个网站的抓取范围，如果想baiduspider 完全抓取就不要建立robots.txt 文件；

样式为：http://www.baidu.com/robots.txt

注意：baiuspider 会首先访问 robots.txt 文件，然后根据robots.txt 给定的权限来确定访问的范围；

如果其它网站链接了你robots.txt 文件中设置禁止访问的网页，这些禁止的网页仍然会出现在百度搜索结果中。但是你的这些网页不会被百度抓取、建立索引和显示，仅仅展示链接你禁止访问的网页的网站；

Robots.txt 文件用法举例：

权限范围	User-agent:	Disallow:	Allow:
禁止所有引擎访问	*	/
允许所有robot 访问	*		/
仅禁止百度蜘蛛访问	Baiduspider	/
仅允许百度蜘蛛访问	Baiduspider		/
*	/
禁止spider访问特定目录	*	/目录1/
	/目录2/
允许访问特定目录中的部分URL	*	/目录3/	/目录1/子目录
	/目录4/	/目录2/子目录
禁止访问目录1/2下的所有html 为后缀的URL	*	/目录1/*.htlm
	/目录2/*.htlm
仅允许访问.html后缀的	*	/	/*html$
禁止访问网站动态网页	*	/?
允许抓取网页，禁止抓取任何图片	Baiduspider	/*jpg$
	所有图片的格式

备注：

User-agent ：该项的值用来描述搜索引擎robot 的名字

Disallow ：描述不希望被访问的一组URL

Disallow: /help --> 禁止访问：/helpl.html /helpabc.html / help/index.html

Disallow:/help --> 是允许/help.html /helpabc.html 但是不能访问：/help/index.html

Allow ：描述希望被访问的一组URL

URL 匹配举例：

Allow 或 Disallow 的值	URL	匹配结果
/tmp	/tmp	yes
/tmp	/tmp.html	yes
/tmp	/tmp/a.html	yes
/tmp	/tmphoho	no

/Hello*	/Hello.html	yes
/He*lo	/Hello,lolo	yes
/Heap*lo	/Hello,lolo	no
Html$	/tmpa.html	yes
/a.html$	/a.html	yes
Html$	/a.html	no