如今的Python语言火遍大江南北,无论是程序员还是非程序员,应该都见过学习python的广告。那么基于python最热的一个词是什么?没错,答案就是:爬虫。我相信,大多数非程序员都听过这个词,却不知爬虫是用来干什么的?又是如何实现的呢?
什么是爬虫
爬虫是一个提取网页的程序或脚本,类似一只隐形的蜘蛛,一边爬一边收集信息。可以爬取校园网站、购物网站、旅行网站等等,学会了爬虫就可以进行各种骚操作了。不过爬取一些网站要三思,有句话是这样说的:“爬虫学的好,监狱进得早”。
爬虫爬取网页的基本步骤
- 导入requests库,request可以帮助我们发送爬取的请求
>>> import requests
- 获取URL,URL相当于网页连接地址,我们以百度为例,爬取百度首页
>>> r=requests.get("http://www.baidu.com")
- 返回文本,就完成了
>>> r.text
爬虫爬取图片的基本步骤
- 保存好图片存取路径,以及写好图片名称
>>> path="D:我的文件夹图片爬取picture.jpg"
- 右键复制图片地址,爬取图片
>>> import requests
>>> r=requests.get(“https://tse1-mm.cn.bing.net/th?id=OIP.BX8LJipOhUSQQx8GCCplWQHaIM&w=184&h=204&c=8&rs=1&qlt=90&dpr=1.25&pid=3.1&rm=2”),
把二进制文件保存为图片并写入文件夹,最后关闭文件夹
>>> with open(path,"wb")as f:
f.write(r.content)
>>> f.close()
我们打开文件夹,就多出了一张图片。