Python3读取网页HTML代码，并保存在本地文件中

最新推荐文章于 2023-02-11 14:24:23 发布

weixin_30338461

最新推荐文章于 2023-02-11 14:24:23 发布

阅读量665

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/sangern/p/7766394.html

版权

旧版Python中urllib模块内有一个urlopen方法可打开网页，但新版python中没有了，新版的urllib模块里面只有4个子模块（error,request,response,parse),urlopen方法位于request子模块下。

urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，再根据浏览器的请求头来伪装，User-Agent头就是用来标识浏览器的。

1 # -*- coding: utf-8 -*-
2 from urllib import request
3 url = "http://www.cnblogs.com/sangern/p/7766247.html" #网页地址
4 wp = request.urlopen(url) #打开连接
5 content = wp.read() #获取页面内容
6 fp = open("test.htm","w+b") #打开一个文本文件
7 fp.write(content) #写入数据
8 fp.close() #关闭文件

转载于:https://www.cnblogs.com/sangern/p/7766394.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30338461

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python3读取网页HTML代码，并保存在本地文件中

旧版Python中urllib模块内有一个urlopen方法可打开网页，但新版python中没有了，新版的urllib模块里面只有4个子模块（error,request,response,parse),urlopen方法位于request子模块下。urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发...
复制链接

扫一扫