现在要爬糗事百科网页。
首先学习内置模块urllib。
#模块导入:import urllib、import urllib.request等均报错
from urllib import request
#打开首页网址
url='http://www.qiushibaike.com/8hr/page/1'
#单纯urlopen该网址会被网站拒绝,需要模仿浏览器访问,即添加header,此时要为该网址创建一个request对象
r=request.Request(url)
#浏览器标示为“User-Agent”,,浏览器类别版本等可以随意写
r.add_header('User-Agent','ABC')
#用urloopen()函数打开该request对象,用read()方法读取网页内容,decode函数解码,编码方式选择‘utf-8’
print(request.urlopen(r).read().decode('utf-8'))
即可查看该网站源码