爬取场库网站遇到的问题

  • 采用解析网页源码的方式

  • 然后通过xpath表达式去匹配视频的信息:标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。

我在匹配这些信息时遇到两大问题:

  • 第一个问题:获取到网页源码之后,根本找不到视频的url,因为视频是通过js来播放的。

 

很巧的是我发现了播放视频的关键代码。结果是这样的:

    

用了xpath表达式正则表达式

 

  • 第二个问题:每个页面最多只能爬取16个:

       selenium是web的自动化测试工具,可以在无界面浏览器上模拟人的操作,比如滚动条下滑,这样每个页面可以爬取更多的数据 。

        PhantomJS是基于webkit的无界面浏览器

        

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值