因为代码只有几行,所以可以先贴代码:
import urllib.request
url = r'http://douban.com'
res = urllib.request.urlopen(url)
html = res.read().decode('utf-8')
print(html)
第一行,导入 urllib库的request模块
第二行,指定要抓取的网页url,必须以http开头的
第三行,调用 urlopen()从服务器获取网页响应(respone),其返回的响应是一个实例
第四行,调用返回响应示例中的read()函数,即可以读取html,但需要进行解码,具体解码写什么,要在你要爬取的网址右键,查看源代码,

红框中的 charset= 则表示编码格式,我要爬取的网页编码为 utf-8,所以,解码我也填utf-8,如果是gbk2313,则填写的是GBK
(更为简单的方法是在程序中调用info()获取网页头部来查看编码方式:)
查看网页的头部信息以确定网页的编码方式:
import urllib.request
res = urllib.re

本文介绍了Python3使用urllib库进行网页抓取的基本步骤,包括导入request模块,指定URL,获取网页响应,读取并解码HTML内容。强调了查看网页编码和设置请求头的重要性,特别是通过模拟浏览器User-Agent来避免403错误。提供了通过F12开发者工具获取请求头User-Agent的方法,并展示了如何在爬虫程序中应用。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



