Python 爬虫HelloWord

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

只要是浏览器能做的事情,原则上,爬虫都能够做。


Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

例如:https://www.taobao.com/robots.txt


通用爬虫 :通常指搜索引擎的爬虫

聚焦爬虫 :针对特定网站的爬虫


动手部分:

1.pip3 intall requests

2.配置pycharm,在interception中install

PS:在网页中查找元素:

右击浏览器,检查--->network--->刷新界面,在检查面板中左上角,点击选择按钮,然后点击网页上诸如图片的元素,从而可以在network中,看到其url,右键复制。


3.coding:

import requests

#获取数据
r= requests.get("https://imgsa.baidu.com/news/q%3D100/sign=b07a74909d8fa0ec79c7600d1696594a/e850352ac65c103881e97861be119313b17e89fa.jpg")

#接收数据
test_content = r.content

#打开一个本地图片(尚未创建)
f = open("test_spider.png","wb")
#把文件保存
f.write(test_content)


r = requests.get("http://www.baidu.com")
test_content = r.content.decode("utf8")
print(test_content)

f.close()





阅读更多
上一篇python小飞机程序
下一篇python 占位符 % 百分号及 Format
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭