网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
只要是浏览器能做的事情,原则上,爬虫都能够做。
Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
例如:https://www.taobao.com/robots.txt
通用爬虫 :通常指搜索引擎的爬虫
聚焦爬虫 :针对特定网站的爬虫
动手部分:
1.pip3 intall requests
2.配置pycharm,在interception中install
PS:在网页中查找元素:
右击浏览器,检查--->network--->刷新界面,在检查面板中左上角,点击选择按钮,然后点击网页上诸如图片的元素,从而可以在network中,看到其url,右键复制。
3.coding:
import requests
#获取数据
r= requests.get("https://imgsa.baidu.com/news/q%3D100/sign=b07a74909d8fa0ec79c7600d1696594a/e850352ac65c103881e97861be119313b17e89fa.jpg")
#接收数据
test_content = r.content
#打开一个本地图片(尚未创建)
f = open("test_spider.png","wb")
#把文件保存
f.write(test_content)
r = requests.get("http://www.baidu.com")
test_content = r.content.decode("utf8")
print(test_content)
f.close()