Python 爬虫HelloWord

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

只要是浏览器能做的事情,原则上,爬虫都能够做。


Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

例如:https://www.taobao.com/robots.txt


通用爬虫 :通常指搜索引擎的爬虫

聚焦爬虫 :针对特定网站的爬虫


动手部分:

1.pip3 intall requests

2.配置pycharm,在interception中install

PS:在网页中查找元素:

右击浏览器,检查--->network--->刷新界面,在检查面板中左上角,点击选择按钮,然后点击网页上诸如图片的元素,从而可以在network中,看到其url,右键复制。


3.coding:

import requests

#获取数据
r= requests.get("https://imgsa.baidu.com/news/q%3D100/sign=b07a74909d8fa0ec79c7600d1696594a/e850352ac65c103881e97861be119313b17e89fa.jpg")

#接收数据
test_content = r.content

#打开一个本地图片(尚未创建)
f = open("test_spider.png","wb")
#把文件保存
f.write(test_content)


r = requests.get("http://www.baidu.com")
test_content = r.content.decode("utf8")
print(test_content)

f.close()





  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值