想要从互联网上获取、处理大量信息,python的爬虫功能是首选。很常用的搭配是:requests+re
以检测域名注册状态为例,分享requests库的使用
.
Requests库的安装
CMD下输入【pip install + 库名】是最便捷的安装方法,点击查看详细的安装方法
Requests库的基本应用
举例:查看域名‘baidu.com’的注册状态
import requests
url = 'http://panda.www.net.cn/cgi-bin/check.cgi?area_domain=' + 'baidu.com'
page = requests.get(url)
print(page.text)
输出结果:
与直接访问该网站获得的结果相比:
Requests代码成组
获得网页后,通常不会直接储存整个网页,而是从中提取有效信息进行储存。可以把requests部分的代码写成一组,方便以后与其它代码组合使用。
import requests
def get_page():
url = 'http://panda.www.net.cn/cgi-bin/check.cgi?area_domain=' + 'baidu.com'
page = requests.get(url)
return page.text
.
- 注意: “http://panda.www.net.cn/cgi-bin/check.cgi?area_domain=” 是万网提供域名状态查询服务的地址