python爬虫,抓取百度指定内容的url链接

最新推荐文章于 2024-04-11 21:45:26 发布

后入剑客

最新推荐文章于 2024-04-11 21:45:26 发布

阅读量1.7k

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_31383225/article/details/48733617

版权

这并没有什么卵用,我只是拿来练习写的~

#coding:utf8
#获取百度搜索python后 得到网站的url
import httplib
from bs4 import BeautifulSoup
import re


def conn(url):
	nameList = []
	connect = httplib.HTTPConnection(url,80,timeout=30) <span style="white-space:pre">			</span>#连接
	connect.request('GET','/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=python&rsv_spt=1&oq=python&rsv_pq=f10981490000252a&rsv_t=0c63QmTLBDZgUO2ObCG3uF370iK6gtPZCnvGSMVn6SQhXwFszeGD61oUUb08xrWBz2cC&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug4=13000')
	response = connect.getresponse() 					#GET请求,获取响应对象
	read = response.read() 			 				#读取对象内容
	soup = BeautifulSoup(read)						#将内容放入bs4解析器,返回一个列表
	data = soup.find_all('a')						#查找里面 !所有! 的a标记,返回一个列表
	for i in data:								#遍历这个列表,每个元素都是一个tag对象
		try:
			i = re.search(r'^http://www\.baidu\.com/link.*',i['href']).group()
			#这个tag对象有许多属性和方法,以字典的方式查找其中的href属性,会返回属性的值
			#在返回的数据中匹配含有特定字符串的数据
			print i
		except Exception,e: #这段数据会有一些不匹配,所以去除报错信息
			pass
url = 'www.baidu.com'
conn(url)