java 有没有类似于 requests 爬虫_大数据时代,怎么能不了解“爬虫”是什么?

如今的Python语言火遍大江南北,无论是程序员还是非程序员,应该都见过学习python的广告。那么基于python最热的一个词是什么?没错,答案就是:爬虫。我相信,大多数非程序员都听过这个词,却不知爬虫是用来干什么的?又是如何实现的呢?

什么是爬虫

爬虫是一个提取网页的程序或脚本,类似一只隐形的蜘蛛,一边爬一边收集信息。可以爬取校园网站、购物网站、旅行网站等等,学会了爬虫就可以进行各种骚操作了。不过爬取一些网站要三思,有句话是这样说的:“爬虫学的好,监狱进得早”。

爬虫爬取网页的基本步骤

  • 导入requests库,request可以帮助我们发送爬取的请求

>>> import requests

  • 获取URL,URL相当于网页连接地址,我们以百度为例,爬取百度首页

>>> r=requests.get("http://www.baidu.com")

  • 返回文本,就完成了

>>> r.text

爬虫爬取图片的基本步骤

  • 保存好图片存取路径,以及写好图片名称

>>> path="D:我的文件夹图片爬取picture.jpg"

  • 右键复制图片地址,爬取图片
0d0ab7d776dff20700269f485c5a723c.png

图片来自bing搜索引擎

>>> import requests

>>> r=requests.get(“https://tse1-mm.cn.bing.net/th?id=OIP.BX8LJipOhUSQQx8GCCplWQHaIM&w=184&h=204&c=8&rs=1&qlt=90&dpr=1.25&pid=3.1&rm=2”),

把二进制文件保存为图片并写入文件夹,最后关闭文件夹

>>> with open(path,"wb")as f:

f.write(r.content)

>>> f.close()

我们打开文件夹,就多出了一张图片。

f318f35ad12af5d2df128997fc72c85d.png

以上就是爬取的基本步骤,当然,我们大多时候想要爬取的网站都是艰辛的,包括改变状态码、改变头部信息从而获得访问权限。通过阅读以上内容,你有没有对爬虫有了初步认识呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值