python的搜题软件下载_用Python模拟搜索引擎蜘蛛

搜索引擎收集网页其实就是用程序来下载网页的源代码,下载代码本身并不复杂(搜索引擎工作的难点在于高查全率、高查准率和较短的响应时间),用Python的话,几行代码就可以完成,代码如下:

import urllib

html=urllib.urlopen("下载代码的URL").read(),html就是返回的网页源代码(在这里不考虑乱码的问题)。

搜索引擎在抓取网页的时候一般都会亮明身份,在网站的日志中可以看到,我们也可以模拟一个搜索引擎的蜘蛛去获取网页的源代码,这需要 构建一个头部信息,User-Agent就是模拟的蜘蛛,以百度为例:

headers={

'Host':'这里写主机名,一般以URL代替',

'User-Agent':'Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html)',

'Referer':'写URL即可'

}

这时获取源代码就不能使用urllib模块了,需要导入urllib2模块:import urllib2,然后用urllib2的Request方法获取网页源代码:

req=urllib2.Request(url=目标URL,headers=headers)

html=urllib2.urlopen(req).read()

模拟搜索引擎蜘蛛跟SEO有什么关系呢?模拟蜘蛛获取到的源代码是SEOer最关心的,因为这样的网页才是搜索引擎收录、进行相关排序的,有时候一些站长会通过判断来路,为搜索引擎和用户返回不同的网页,SEO如果不仔细的话,交换友情链接会吃亏。在chinaz 的工具里有模拟搜索引擎蜘蛛的,对程序不熟的,可以利用它的工具。

模拟搜索引擎蛛蛛另一个用在SEO方面是采集、挖掘网站数据用。网络上有大量的数据,搜索引擎是抓取不到的(如JS调用等),我们可以利用程序去抓取,但现在很多网站都采取了防采集措施,如频繁访问会被封IP等,但他们对搜索引擎是完全开放的,我们可以利用这一点,模拟蜘蛛去挖掘网站内容,我就用这种方法采集过国内某著名旅游网站的内容。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值