Python 爬虫HelloWord

最新推荐文章于 2023-05-21 22:15:21 发布

七七仔17

最新推荐文章于 2023-05-21 22:15:21 发布

阅读量517

点赞数 1

本文链接：https://blog.csdn.net/angus_17/article/details/80355856

版权

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

只要是浏览器能做的事情，原则上，爬虫都能够做。

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

例如：https://www.taobao.com/robots.txt

通用爬虫：通常指搜索引擎的爬虫

聚焦爬虫：针对特定网站的爬虫

动手部分：

1.pip3 intall requests

2.配置pycharm，在interception中install

PS：在网页中查找元素：

右击浏览器，检查--->network--->刷新界面，在检查面板中左上角，点击选择按钮，然后点击网页上诸如图片的元素，从而可以在network中，看到其url，右键复制。

3.coding:

import requests

#获取数据
r= requests.get("https://imgsa.baidu.com/news/q%3D100/sign=b07a74909d8fa0ec79c7600d1696594a/e850352ac65c103881e97861be119313b17e89fa.jpg")

#接收数据
test_content = r.content

#打开一个本地图片(尚未创建)
f = open("test_spider.png","wb")
#把文件保存
f.write(test_content)


r = requests.get("http://www.baidu.com")
test_content = r.content.decode("utf8")
print(test_content)

f.close()

七七仔17

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫HelloWord

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。只要是浏览器能做的事情，原则上，爬虫都能够做。Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。例如：https://www.taobao.com/robots.txt通用爬虫：通常指搜索引擎的爬虫聚焦爬虫：针对特定网站的爬虫...
复制链接

扫一扫