爬虫实践之XX行代码爬取10000菜谱数据
什么是爬虫爬虫:又叫做网络蜘蛛,是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
如何合法地爬虫
有些网站不允许网络爬虫,或是对可爬取的内容做了限制,一个网站的爬虫协议可通过访问该网站的robots.txt文件获得
以豆瓣网为例
可以看到,豆瓣对于不同的访问者有不同的访问限制,其中对于用户名为 Wandoujia Spider的访问者,豆瓣不允许访问。
我用到的菜谱网站对爬虫无限制,所以爬虫是合法的。
本篇特色
连续爬取10000个网页
引入第三方库
import requests #发送请求
import re #正则表达式,用于提取网页数据
import winsound #提醒程序运行结束
import time #计算程序运行时间
如果没有安装这些第三方库,可以在命令提示符中输入如下代码,进行下载
pip install requests,re,winsound,time
爬虫的三个步骤获取要爬取的所有网页的网址
提取网页内容中的有用信息
信息导出
每个步骤对应一个函数
Step_1 获取要爬取的所有网页的网址
首先我们打开该网址,查看它的源代码网页源代码
观察发现每道菜对应的网址在这个目录下
用正则表达式获得该网址,写入列表中
由于每一个网页只有十道菜,点击下一页后发现网页的变化规律为换页时网址只有数字改变
可以