Python 爬取网页并存储至本地
使用Python爬取网页,并将该网页存储至本地目录。
注:本文爬取的是网易新浪的一个网页。
代码如下:
import urllib.request
def getHTML(url):
html = urllib.request.urlopen(url).read()
return html
def saveHTML(file_name, file_content):
# 注意windows文件命名的禁用符,比如 /
with open(file_name.replace('/', '_') + ".html", "wb") as f:
# 写文件用bytes而不是str,所以要转码
f.write(file_content)
aurl = "https://mil.news.sina.com.cn/2019-06-27/doc-ihytcerk9733591.shtml"
html = getHTML(aurl)
print("网页已爬取")
saveHTML("sina", html)
print("网页已存储至本地")
目标网页如下:
网页爬取结果如下:(在VSCode下打开)