目的
1) 提取下厨房关键词为(早餐,午餐,晚餐)的菜谱
2) 获取“菜谱链接,图片地址,菜名,材料,七天内多少人做过,作者“,存储到MONGODB
3) 对每个菜谱进行网页截图,保存到本地
2. 目标站点分析
网址:
输入关键词“早餐”,发现是跳转链接(暂时没想到这种怎么处理比较好,就单独拿出来处理吧)
午餐和晚餐的网址就比较一致
3. 爬取思路(以午餐为例)
1) 根据午餐关键词,组合url,请求得到第一页结果
2) 解析第一页结果,使用正则表达式获取,提取详情页信息和其他信息
3) 根据详情页信息的url获取详情页,截图保存,文件夹使用详情页URL的ID_菜名
4) 改变page参数