爬网站的过程:

l1、发现网站。百度把csdn当成关键网站,顺着已知的网站链接找到新的网站或者新的页面。
lSEO(搜索引擎优化)的第一个手段:建外链(外部链接)。新网站吸引蜘蛛。对于非新网站,搜索引擎考虑一个“权重”,重点考察外链数量。权重越高搜索结果越靠前,“权重”的一个重要因素就是“外链”数量,外链质量(外链网站的PR值,PageRank,决定一个网站的质量的值,PR值越高网站越重要,原创、创建时间等等),Alexa 排名(全球网站排名)
l页面数据量:几十万条。
lSEO(搜索引擎优化)目的:让搜索引擎更多的收录网站的页面,让被收录页面的权重更靠前,让更多的人能够通过搜索引擎进入这个网站。2、抓取网页。蜘蛛会定时抓取网站的内容,发现网站内容变化、发现新增内容就反映到搜索引擎中。
lrobots.txt是公约,搜索引擎都建议遵守,相当于一个指路牌:想让那些搜索引擎搜索,想让那些页面搜索

转载于:https://www.cnblogs.com/hewencong/archive/2012/11/24/2786461.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值