爬虫初级学习

最新推荐文章于 2024-11-05 15:28:12 发布

HDBYU

最新推荐文章于 2024-11-05 15:28:12 发布

阅读量107

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/pzc13183105930/article/details/107855211

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

####################################################

###########爬取网页数据，并进行数据显示#############


#  1.使用urllib爬取网页前先要导入用到的模块
import urllib.request

#  2.使用urllib.request.urlopen爬取网页
file=urllib.request.urlopen("https://www.baidu.com")

#  3.读取爬出的全部内容并且赋给变量data
data=file.read()

#  4.显示网页的数据内容，得到的是HTML代码
print(data)

####################################################


#########将爬取的网页以网页的形式保存在本地##########

#  1.以写入的方式打开一个本地文件，命名为*.html等网页格式(此时H:/text里面有一个1.html文件了)
fhandle=open("H:/text/1.html","wb")

#  2.将变量data的值写入该文件（此时H:/text里面的1.html文件有数据了）
fhandle.write(data)

#  3.关闭该文件
fhandle.close()

#####################################################


#########爬取网页并将网页保存到本地方法二############

filename=urllib.request.urlretrieve("https://www.swjtu.edu.cn",filename="H:/text/2.html")

# urlretrieve使用过程中会产生一些缓存，需要用urlcleanup()清除
urllib.request.urlcleanup()