爬虫（1）

最新推荐文章于 2024-09-18 22:11:05 发布

S_h_a_

最新推荐文章于 2024-09-18 22:11:05 发布

阅读量228

点赞数

分类专栏： AI（机器学习&深度学习）文章标签：爬虫

本文链接：https://blog.csdn.net/qq_45830251/article/details/122484850

版权

AI（机器学习&深度学习）专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.本质：

通过编写程序来获取互联网上的资源（用程序模拟一个浏览器，输入一个网址，从该网址中获取资源或者内容）；

2.简单的实例一；

from urllib.request import urlopen
url = "http://www.baidu.com"  # 百度的网址
resp = urlopen(url)
print(resp.read().decode("utf-8"))  # 将其进行输出，由于其为utf-8的，则将其进行解析

将其进行改进，写入文件中；

from urllib.request import urlopen
url = "http://www.baidu.com"
resp = urlopen(url)
with open('baidu.html',mode="w",encoding='utf-8')as f:
    f.write(resp.read().decode("utf-8")) #读取到的是网页的页面源代码
print("over!!!")