####################################################
###########爬取网页数据,并进行数据显示#############
# 1.使用urllib爬取网页前先要导入用到的模块
import urllib.request
# 2.使用urllib.request.urlopen爬取网页
file=urllib.request.urlopen("https://www.baidu.com")
# 3.读取爬出的全部内容并且赋给变量data
data=file.read()
# 4.显示网页的数据内容,得到的是HTML代码
print(data)
####################################################
#########将爬取的网页以网页的形式保存在本地##########
# 1.以写入的方式打开一个本地文件,命名为*.html等网页格式(此时H:/text里面有一个1.html文件了)
fhandle=open("H:/text/1.html","wb")
# 2.将变量data的值写入该文件(此时H:/text里面的1.html文件有数据了)
fhandle.write(data)
# 3.关闭该文件
fhandle.close()
#####################################################
#########爬取网页并将网页保存到本地方法二############
filename=urllib.request.urlretrieve("https://www.swjtu.edu.cn",filename="H:/text/2.html")
# urlretrieve使用过程中会产生一些缓存,需要用urlcleanup()清除
urllib.request.urlcleanup()
爬虫初级学习
最新推荐文章于 2024-11-05 15:28:12 发布