自动抓取互联网信息的程序;
利用互联网数据进行分析、开发产品
步骤:
1.通过网络链接获取网页内容
2.对获得的网页内容进行处理
requests模块是一个简洁且简单的处理HTTP请求的工具
支持非常丰富的链接访问功能,包括URL获取,HTTP会话,Cookie记录等
requests网页请求:
get() 对应HTTP的GET方式
post() 对应HTTP的POST方式,用于传递用户数据
requests对象属性
status_code HTTP请求的返回状态,200表示链接成功,400表示失败
text HTTP相应内容的字符串形式,即url对应的页面内容。
# -*- coding:utf-8 -*-
import requests
def get_html_text(url):
"""
返回url的文本
:param url:
:return:
"""
r = requests.get(url,timeout = 30)
#print(r.status_code)
return r.text
def main():
city_name = input('请输入城市拼音:')
url = 'http://pm25.in/' + city_name
url_text = get_html_text(url)
#print(url_text)
aqi = """
<div class="span12 data">
<div class="span1">
<div class="value">
"""
index = url_text.find(aqi)
begin_index = index + len(aqi)
end_index = begin_index +2
aqi_val = url_text[begin_index:end_index]
print('空气质量为{}'.format(aqi_val))
if __name__ == '__main__':
main()