大家期待的大众点评系列终于更新啦!!
在之前的课程中我们已经学会了通过xpath或者css选择器来对区域名所对应的节点进行定位,进而获取到了我们所需要的重要信息,其中包括
1.一级类目的名称以及对应的url链接
2.二级类目的名称以及所对应的url链接
3.所在区域的名称以及它所对应的url链接
4.商品列表页整体的商品列表以及每个商品具体对应的标签信息
那么接下来可是小伙伴们可要认真看喽,本篇博文在大众点评整体网站抓取过程中是至关重要的一环,我们本节课所需要做的就是把我们所需要的商品的标题名、商家的电话、商家的地址以及小伙伴们实际情况所需要的一些其他信息,像评论信息,评论用户等。
在上节课我们获取到了每一个商品所对应的具体标签之后,我们就会发现其中包含着商品的标题信息,那我们是不是就可以运用之前学过的知识,使用xpath或者css选择器来进行对标题信息的定位呢?在这里我还是一如既往的实用css选择器来对标题所对应的内容进行提取,在这里,我建议大家在获取某一个网站的信息时尽量在提取我们所需要内容的时候进行统一化,也就是如果我们用xpath,在程序中就一直去使用xpath,同理,如果我们用css选择器进行提取的话,我们就一直使用css选择器。这样做的好处便可以在我们编程思维中形成一条线,这样我们整体获取下来就会很少出错了。
在此之后我会着重的更新一些css选择器以及xpath选择器所用到的语法知识,这样也方便大家来进行学习,对网站抓取也会有奠定基础的作用。
我这里用css来提取’青鸟健身(新大都店)‘即为要在上节课定位的标签下查找.find’.txt .tit a'.text(),这样就可以提取到我们,所需要的标题信息,在这里我建议大家尽量不要进入商品详情页来进行标题信息的提取,这样会带来一些字体反爬对应的麻烦。
获取到标题信息之后我们接下来就需要获取每一个具体商品所对应的商品详情页链接了,那我们为什么会需要获取商品详情页链接呢?是因为我们所需要的很多数据只有在进入商品详情页面才会体现出来,在商品列表页是不存在的,只有存在了数据,我们才能谈接下来的定位及数据处理,详情页商品链接所对应的网页源代码,这里用css选择器提取就是’.find('.tit a').attr('href')‘,这样我们就获得了每个具体的商品商品详情页的url链接。
然后我们可以通过url链接进入到商品详情页面,并且可以提取我们想要的重要数据。
本期的博文就更新到这里啦,下期会涉及到很重要的反爬哦,大家不要错过重头戏哦!!
大家有什么不是很清楚的问题,欢迎在评论区留言,我在评论区帮大家一一解决!!
大家不见不散!!