简单爬虫

 
import requests        #导入模块
 
response = requests.get(' http://www.baidu.com')
print(response.status_code)        #打印状态码    
print(response.url)            #打印请求url
print(response.headers)            #打印头部信息    
print(response.cookies)            #打印cookie信息    
print(response.text)            #以文本形式打印网页源码
print(response.content)            #以字节流形式打印网页源码
 
 
url = ' https://www.baidu.com/'        #创建需要爬取网页的地址
headers = {'User-Agent':'Mozilla/5.0(Windows NT 6.1;W...) Genko/201000101 Firefox/59.0'}
response = requests.get(url,headers)    #发送网络请求
print(response.content)            #以字节流形式打印网页源码

 

 
 
网络超时
for a in range(0,50):
    try:             #捕获异常
    #设置超时时间为0.5s
        response = requests.get(' https://www.baidu.com/', timeout=0.5 )
        print(response.status_code)   #打印状态码
    except Exception as e:            #捕获异常
        print('异常'+str(e))          #打印异常信息

 

 
 
代理服务
proxy = {'http':'122.114.31.177:808',
         'https':'122.114.31.177:8080'}    #设置代理ip对应的端口号
#对需要爬取的网页发送请求
response = requests.get(' http://www.mingrisoft.com',proxies=proxy)
print(response.content)        #以字节流形式打印出网页源码
 
 
 

转载于:https://www.cnblogs.com/heiguu/p/9951568.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值