爬虫初级学习

####################################################

###########爬取网页数据,并进行数据显示#############


#  1.使用urllib爬取网页前先要导入用到的模块
import urllib.request

#  2.使用urllib.request.urlopen爬取网页
file=urllib.request.urlopen("https://www.baidu.com")

#  3.读取爬出的全部内容并且赋给变量data
data=file.read()

#  4.显示网页的数据内容,得到的是HTML代码
print(data)

####################################################


#########将爬取的网页以网页的形式保存在本地##########

#  1.以写入的方式打开一个本地文件,命名为*.html等网页格式(此时H:/text里面有一个1.html文件了)
fhandle=open("H:/text/1.html","wb")

#  2.将变量data的值写入该文件(此时H:/text里面的1.html文件有数据了)
fhandle.write(data)

#  3.关闭该文件
fhandle.close()

#####################################################


#########爬取网页并将网页保存到本地方法二############

filename=urllib.request.urlretrieve("https://www.swjtu.edu.cn",filename="H:/text/2.html")

# urlretrieve使用过程中会产生一些缓存,需要用urlcleanup()清除
urllib.request.urlcleanup()



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值