java 有没有类似于 requests 爬虫_大数据时代，怎么能不了解“爬虫”是什么？

最新推荐文章于 2024-03-09 11:39:55 发布

weixin_39600291

最新推荐文章于 2024-03-09 11:39:55 发布

阅读量159

点赞数

文章标签： java 有没有类似于 requests 爬虫

如今的Python语言火遍大江南北，无论是程序员还是非程序员，应该都见过学习python的广告。那么基于python最热的一个词是什么？没错，答案就是：爬虫。我相信，大多数非程序员都听过这个词，却不知爬虫是用来干什么的？又是如何实现的呢？

什么是爬虫

爬虫是一个提取网页的程序或脚本，类似一只隐形的蜘蛛，一边爬一边收集信息。可以爬取校园网站、购物网站、旅行网站等等，学会了爬虫就可以进行各种骚操作了。不过爬取一些网站要三思，有句话是这样说的：“爬虫学的好，监狱进得早”。

爬虫爬取网页的基本步骤

导入requests库，request可以帮助我们发送爬取的请求

>>> import requests

获取URL，URL相当于网页连接地址，我们以百度为例，爬取百度首页

>>> r=requests.get("http://www.baidu.com")

返回文本，就完成了

>>> r.text

爬虫爬取图片的基本步骤

保存好图片存取路径，以及写好图片名称

>>> path="D:我的文件夹图片爬取picture.jpg"

右键复制图片地址，爬取图片

图片来自bing搜索引擎

>>> import requests

>>> r=requests.get(“https://tse1-mm.cn.bing.net/th?id=OIP.BX8LJipOhUSQQx8GCCplWQHaIM&w=184&h=204&c=8&rs=1&qlt=90&dpr=1.25&pid=3.1&rm=2”)，

把二进制文件保存为图片并写入文件夹，最后关闭文件夹

>>> with open(path,"wb")as f:

f.write(r.content)

>>> f.close()

我们打开文件夹，就多出了一张图片。

以上就是爬取的基本步骤，当然，我们大多时候想要爬取的网站都是艰辛的，包括改变状态码、改变头部信息从而获得访问权限。通过阅读以上内容，你有没有对爬虫有了初步认识呢？

weixin_39600291

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。