以下使用requests模块从一个URL下载网页源码,从而进行爬虫的下一步分析。
#下载网页源代码
import requests
url = "https://www.baidu.com/"
myfile = requests.get(url)
open("D:/code.txt","wb").write(myfile.content)
你只需使用requests模块的get方法获取URL,并将结果存储到一个名为“myfile”的变量中。然后,将这个变量的内容写入文件。
url = "目标网址"
这里,可以修改目标网站。同时,将代码进行小改动也可以爬取网页图片,前提是这个网址本身是图片格式。
# 下载图片
import requests
html = "http://inews.gtimg.com/newsapp_ls/0/12640396123_640330/0.png"
myfile = requests.get(html)
open("D:/3.png","wb").write(myfile.content)