昨天看了下这个网站,了解了下,挺好玩的,今天写了代码,运行的话,没太大问题,主要的问题,就是大众点评的验证码问题,以及其汉字svg的问题,对于大众点评,相信很多人都想要其数据,说说抓取思路吧,搜索后的网页,大致是这样的http://www.dianping.com/guangzhou/ch10/g110,对于其店铺的信息,都是svg图截图的数据,大家多刷新几次就可以在开发者工具中发现css中的几个文件,http://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/???.css ,这个就是它的span的class对应svg图中的汉字,对于这个对应关系的话,我没有用汉字识别,直接使用正则提取其开头,因为这个问题中,不止是css样式问题,还要svg图的连接,大家ctrl寻找下url就可以发现,其所在,一般都是4个连接,对应着不同的信息,点评数量呀(数字表),分类呀(字表),地址呀(2个字表),对于匹配的关系的话,每个人想法不一样,看你怎么匹配,匹配好了,
python爬虫:大众点评商家信息 9012 10/23
最新推荐文章于 2024-03-08 09:00:00 发布