自从学会了爬虫,身体状况一天不如一天,营养都跟不上了,教大家爬取百度性感小姐姐的图片,先看一下效果。
项目流程
第一步:准备工作
工欲善其事,必先利其器
pip install requests
,该模块用来发送网络请求- pycharm编写代码。
- Chrome浏览器便于解析网页内容。
第二步:分析网页
想要从某个网站获取数据,首先肯定要熟悉这个网站,知彼知己,百战不殆。
- 使用Chrome浏览器,百度图片搜索“小姐姐”
- F12进入调试模式
- 依次点击图一的1.Network、2.XHR。然后鼠标鼠标移动到3的位置向下滚动滚轮,会发现4号位置会不断的出现新的内容。
- 如图二所示,点击1号区域中的随便一个,再点击2号response,会看到3号区域出现了一堆json数据,我们要抓到小姐姐url地址就在这堆json数据中
- 如图三所示,依次点击1号区域的每个内容,然后点击2号位置Heaters分析每个内容的url,会在三号区域横线处发现一个规律,每次向下拖动百度会返回30个图片。
第三步:发送网络请求
- 导入requests第三方库
import requests
- 把url地址复制出来
url='https://image.baidu.com/search/acjson?tn=resultjson_com&logid=2975623535251405494&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%B0%8F%E5%A7%90%E5%A7%90&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&word=%E5%B0%8F%E5%A7%90%E5%A7%90&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&expermode=&force=&pn=&rn=30&gsm=1e&1620226623245='
- 构造请求头headers,只有构造了请求头,百度才会误以为是一个正经的浏览器在访问它。
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS