python3.x爬虫（一）：打开网页，获取网页内容

最新推荐文章于 2024-07-21 21:39:32 发布

liyanyu123

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量1.8w

点赞数 3

文章标签： python c n'

本文链接：https://blog.csdn.net/liyanyu123/article/details/81566575

版权

1.网页结构（了解）

网页构成三要素：HTML、JavaScript、css

head：网页的标题，不在网页内显示。body：网页内显示的内容（上边右图）。我们是爬取body中的内容。

（这是我本地写的一个网站，所以没有链接，所以肯定是不能用来爬虫的）

2.python爬虫用的库

python用于爬虫的库为urllib

urllib.request 用于打开和读取URL,
urllib.error 用于处理前面request引起的异常,
urllib.parse 用于解析URL,

4.urllib.robotparser用于解析robots.txt文件

3.通过request模块下的urlopen函数打开一个网页并获取内容。

代码如下：

urlopen参数如下：

urlopen(url, data=None, timeout=<object object at 0x000001D4652FE140>, *, cafile=None, capath=None, cadefault=False, context=None)。

1.url 参数：可以是一个表示URL的字符串（如：http://www.xxxx.com/）

2.data参数：data用来指明发往服务器请求中的额外的信息（如：在线翻译，在线答题等提交的内容，后边回用到）

其他参数很少用。

from urllib.request import urlopen
#导入urlopen函数
#读取网页内容，如果网页中又中文要用“utf-8”解码
html = urlopen(
    "https://mp.csdn.net/postedit"
).read().decode('utf-8')
print(html)

运行结果

原网页代码：

liyanyu123

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
python3.x爬虫（一）：打开网页，获取网页内容

1.网页结构（了解）网页构成三要素：HTML、JavaScript、csshead：网页的标题，不在网页内显示。body：网页内显示的内容（上边右图）。我们是爬取body中的内容。（这是我本地写的一个网站，所以没有链接，所以肯定是不能用来爬虫的）2.python爬虫用的库python用于爬虫的库为urllib urllib.request 用于打开和读取URL, ...
复制链接

扫一扫