python取网页非常简单,但是python自带的urllib和urllib2包爬取网页比较慢,但对爬取数据不多的话这个包还是挺好用的,对于爬取数据较多的可以选择一些扩展包。这里就只接单的介绍一下urllib2这个包的使用:
import urllib2
def fetch(url):
http_header={'User_Angent':'CHrome'}
http_request=urllib2.Request(url,None,http_header)
print "Start downloading data... "
http_response=urllib2.urlopen(http_request)
print"Finish downloading data..."
# Status code
#200 /ok
#404 /Invalid URL
#500 /Internal Error
print http_response.code
#http.header(key/value pairs)
print http_response.info()
print"-------Data------"
print http_response.read()
if __name__=="__main__":
fetch("http://bj.meituan.com/")
运行完这段代码你就能看到结果,赶紧试试吧。。。
注:python3以上的版本不支持urllib2