python 一个简单的爬取程序

代码: first_get.py


#引入requests模块
import requests

#定义get_content函数
def get_content(url):
    resp = requests.get(url)
    return resp.text

#定义url,值为要抓取的目标站网址
url = "http://www.baidu.com"

#调用函数返回值给content
content = get_content(url)

#打印输出content
print("网页为:\n ",content)

#得到content的长度
content_len = len(content)
print("内容的长度: ",content_len)

#判断内容长度是否大于40kB
if content_len >= 40 * 1024:
    print("内容的长度大于等于40kB.")
else:
    print("内容的长度小于等于40kB.")

# 用于单行注释

    resp = requests.get(url)

requests支持get和post方法, requests的get和post方法在发出请求并得到响应后,后返回一个响应对象,这里将响应对象赋给resp

 return resp.text

将获得resp对象的text属性,并将此属性作为函数的返回值返回。resp是一个对象,python支持面向对象程序设计,text是resp的一个属性,可以的得到相应的文本信息, 在python中可以通过 “.” 得到对象的属性或调用对象的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值