爬取场库网站遇到的问题

最新推荐文章于 2021-10-22 09:26:30 发布

繁星、晚风

最新推荐文章于 2021-10-22 09:26:30 发布

阅读量1.1k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39530754/article/details/82252006

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

采用解析网页源码的方式
然后通过xpath表达式去匹配视频的信息：标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。

我在匹配这些信息时遇到两大问题：

第一个问题：获取到网页源码之后，根本找不到视频的url，因为视频是通过js来播放的。

很巧的是我发现了播放视频的关键代码。结果是这样的：

用了xpath表达式和正则表达式

第二个问题：每个页面最多只能爬取16个：

selenium是web的自动化测试工具，可以在无界面浏览器上模拟人的操作，比如滚动条下滑，这样每个页面可以爬取更多的数据。

PhantomJS是基于webkit的无界面浏览器

繁星、晚风

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

繁星、晚风 CSDN认证博客专家 CSDN认证企业博客

码龄7年

75: 原创

3万+: 周排名

6万+: 总排名

66万+: 访问

: 等级

4713: 积分

149: 粉丝

384: 获赞

48: 评论

1196: 收藏

私信

关注

热门文章

分类专栏

最新评论

密码正确却连接数据库失败，报错ava.sql.SQLException: Access denied for user ‘root‘@‘localhost‘ (using password: YES)
herui_: 我密码就是零开头的试过无数方法都不行终于这里找到了
密码正确却连接数据库失败，报错ava.sql.SQLException: Access denied for user ‘root‘@‘localhost‘ (using password: YES)
herui_: 感谢大佬呀，救了我一命
结果规格化—规格化浮点数的加减运算
做而论道_CS: 其实，对浮点数的理解，不需要弄这么麻烦的。上过初一的，都知道科学记数法：　N = ± 绝对值 × 10^e。绝对值，当然是正数，由一位整数、多位小数组成。 e 则是以 10 为底的指数。将此法，引入到计算机中，就是 “浮点数” 了：　N = (－1)^S × (1.) M × 2^E。其中的 1.M，就是绝对值，它是一个无符号数。阶码 E，则为：指数 e + 127。把 “科学记数法” 中的 “绝对值、指数 e”，拿来换算一下，“浮点数” 就出来了。浮点数的运算：　相加减，要先对阶，再用绝对值的补码加减。　相乘除，就是绝对值相乘除、阶码相加减。得出了加减乘除的结果后，还需要整理成规范的形式。计算机中的浮点数运算，是由 “浮点机” 实现的。（例如 80x86 系统的中的 “协处理器”。）对阶、上下溢、运算、规格化等等，都是由硬件完成的。这些步骤，不需要谁来编程。不用编程，还学它干嘛？难道，你们还想设计硬件？硬件的原理及其设计，就由 “电子信息工程专业” 去干吧。计算机专业的老师，就不要在这里哗众取宠了。计算机专业的学生，学了这些，也是 P 用都没有的。学了半年，也还是隔靴搔痒而已。计算机专业，了解一点 “定点数、补码” 就行了。当然，没上过中学又想装大瓣蒜的人，学学也无妨。
VUE如何element-ui自带的富文本编辑器
征途黯然.: 文章很有用，感谢分享~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。