Python学习笔记 | 获取网页源码并将内容保存为本地文件
Python学习笔记 | 获取网页源码并将内容保存为本地文件
# 获取网页源代码
import requests
htmlDocument = requests.get("https://www.toutiaojs.cn/pgay/53671-1-1.html")
print(htmlDocument.text)
# 将获取的源码写到本地
import os # 用于文件操作
import sys # 用于编码转换
os.getcwd() # 获取当前工作目录
if os.path.isdir('temp') != True: # 判断文件夹是否存在
os.mkdir('temp') # 在当前目录创建一个子目录 temp
os.chdir('temp') # 将当前目录切换到temp子目录下
tempfile = open("index.html", "w", encoding='utf-8') # 转换成utf-8 编码格式,避免后面写出文件的时候出现编码问题
# en=htmlDocument.text.encode(encoding='utf-8',errors = "xmlcharrefreplace")
# str=en.decode(encoding='utf-8',errors = "xmlcharrefreplace")
# tempfile.write(str)
tempfile.write(htmlDocument.text)