-
采用解析网页源码的方式
-
然后通过xpath表达式去匹配视频的信息:标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。
我在匹配这些信息时遇到两大问题:
-
第一个问题:获取到网页源码之后,根本找不到视频的url,因为视频是通过js来播放的。
很巧的是我发现了播放视频的关键代码。结果是这样的:
用了xpath表达式和正则表达式
-
第二个问题:每个页面最多只能爬取16个:
selenium是web的自动化测试工具,可以在无界面浏览器上模拟人的操作,比如滚动条下滑,这样每个页面可以爬取更多的数据 。
PhantomJS是基于webkit的无界面浏览器