python抓取搜索到的url，小型爬虫

最新推荐文章于 2021-03-26 17:58:12 发布

阿迪达拉参上

最新推荐文章于 2021-03-26 17:58:12 发布

阅读量2.2k

点赞数

分类专栏： python 文章标签： python 搜索结果爬虫 url 网址

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/adidala/article/details/42842489

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

#!/usr/bin/python
# -*- coding: utf-8 -*-

import sys
import re
import urllib2

from BeautifulSoup import BeautifulSoup

def search(key):
	#请求搜索链接，关键字用参数key代替
	search_url='http://www.baidu.com/s?ie=UTF-8&wd=key'
	req=urllib2.urlopen(search_url.replace('key',key))
	
	#计数变量，用来记录页数
	count = 1
	
	#主循环，抓取每一页的url，直到最后一页
	while 1:
		print "\033[1;31mpage %s:\033[0m" % count
		html=req.read()
		soup=BeautifulSoup(html)
		f = open("result.txt",'a')
		
		#url在<span>...</span>中，
		content  = soup.findAll('span',attrs={'class':'g'})
		
		#对每一个对象解析
		for i in content:
			pat = re.compile("^(.+?) .*$")
                	#i为对象，所以用i.text转换为字符串
			url = re.search(pat,i.text)
			#url有可能匹配不到
			if url:
				f.write(url.group(1)+"\n")
				print url.group(1)
			else:
				next
		f.close()
		#得到“下一页”的链接。除了第一页和最后一页，其他的会有2个元素。第一个为上一页，第二个为下一页。
		#这里取倒数第一个元素
              	next_page='http://www.baidu.com'+soup('a',{'href':True,'class':'n'})[-1]['href']
		#最后一页只有一个元素，倒数第一个是“上一页”，所以判断一下，如果只有一个元素，并且不是第一页就结束。
		#否则可能会造成死循环
		if count >1 and len(soup('a',{'href':True,'class':'n'}))==1:
			print "\033[1;31mcomplete!\033[0m"
			break
		#不是最后一页就继续
		else:
			req=urllib2.urlopen(next_page)
			count += 1

if __name__=='__main__':
	key = "hello world!"
	search(key)

阿迪达拉参上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阿迪达拉参上 CSDN认证博客专家 CSDN认证企业博客

码龄10年

22: 原创

25万+: 周排名

38万+: 总排名

9万+: 访问

: 等级

1084: 积分

12: 粉丝

23: 获赞

11: 评论

55: 收藏

私信

关注

热门文章

分类专栏

Ruby 7篇
Metasploit 2篇
汇编 2篇
密码学 2篇
python 4篇
perl 6篇
架构 2篇
杂谈 1篇

最新评论

MD5算法详述及python实现
Koreyoshi0815: 这个确实作者没有考虑到，感觉可以用切片操作来代替一下？就直接取16进制的后八位比如output_a = "0x"+hex(int(abcd_list[0], 16) + int(aa, 16))[-8:]
MD5算法详述及python实现
Koreyoshi0815: 他这个代码中间有些情况没有考虑到，有一些小错误，不过整体感觉还是很棒的！（反正自己是很难写出来┭┮﹏┭┮
MD5算法详述及python实现
qq_56890863: 为什么我的输出是28
商品历史价格查询网站分享
qq_21767619: 你好！我看见是你上传的中科院信息工程研究所2018考博专业课真题。请文您是18年参加的考试吗?有些问题想请教一下。能方便留个QQ或者邮箱吗？
商品历史价格查询网站分享
theodore26: 你好，请问asd-price.com是否为您的网站。在这里提供一个书签快速跳转到网站。 [code=javascript] [removed] (function() { var hosts_splite = [removed].host.split("."); if (hosts_splite[hosts_splite.length - 2] == "com") { hosts_splite[hosts_splite.length - 3] = hosts_splite[hosts_splite.length - 3] + "asd" } else { hosts_splite[hosts_splite.length - 2] = hosts_splite[hosts_splite.length - 2] + "asd" } [removed].href = [removed].href.replace([removed].host, hosts_splite.join(".")) } ()); [/code] 压缩后是 [code=javascript] [removed](function(){var hosts_splite=[removed].host.split(".");if(hosts_splite[hosts_splite.length-2]=="com"){hosts_splite[hosts_splite.length-3]=hosts_splite[hosts_splite.length-3]+"asd"}else{hosts_splite[hosts_splite.length-2]=hosts_splite[hosts_splite.length-2]+"asd"}[removed].href=[removed].href.replace([removed].host,hosts_splite.join("."))}()); [/code] 新建一个书签，在网址里输入上面的js代码即可

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。