项目分析
爬取的网站是下厨房,目标是固定栏目【本周最受欢迎】
可以看到我们要爬取的/explore/不在禁止爬取的列表内
1.先看下页面
计划拿到的信息是:菜名、所需材料、和菜名所对应的详情页URL
2.打开检查工具,在Elements里查看这个网页。
3.点击开发者工具左上角的小箭头,然后选中一个菜名,那么Elements会自动标记出对应的代码。
4.找到详情页URL的所在位置。其值是/recipe/104486698/
我们可以提取标签,然后用text拿到它的文本,在使用[href]获取到半截URL和http://www.xiachufang.com做拼接即可。
5.找食材位置,点击小箭头,挑选食材。
6.根据菜名的路径、URL的路径、食材的路径,寻找这三者的最小共同父级标签
两种写爬虫的思路:
思路一:先去爬取所有的最小级父级标签
,然后针对每一个父级标签,提取里面的菜名、URL、食材
思路二:分别提取所有的菜名、所有的URL、所有的食材。然后一一对应起来。
代码实现(一)
获取与解析
用requests.get()获取数据,使用BeautifulSoup来解析