![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
爬虫
DilicelSten
Data has a better idea.
展开
-
爬虫实战 - 如何爬取B站视频评论?
步骤(本次爬虫仅以一个视频为示例:链接)查找评论请求api解析URL去掉第一个和最后一个参数可得评论URL,即:https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&sort=2【其中pn是页码;sort控制排序顺序,1按时间排序,2按热度排序;oid代码视频编号】- 开始敲代码import requestsheader = {"User-Agent": "M原创 2020-11-21 21:19:39 · 7179 阅读 · 8 评论 -
Redis:实现简单的分布式爬虫
假期在攻克爬虫期间,调转工作方式时有幸接触了redis,真心觉得它是一个好玩的东西,接下来就是我假期的一点点小收获吧~什么是redisRedis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。还提供list,set,zset,hash等数据结构的存储。支持数据的备份,即master-slav原创 2017-02-03 22:01:55 · 5157 阅读 · 0 评论 -
解决微博动态加载的代码实现
前言假期爬取微博内容的时候遇到了不少麻烦,其中一个就是由于微博的改版,内容的呈现需要读者下拉加载出来,不然源代码中没有相应的内容,爬取时就会造成缺漏,针对这个问题,在使用selenium进行模拟登陆之余,也进行模拟滚动条的下拉,确实有了不错的效果,但是最大的坏处就是时间消耗太大了,如果有更好的方法希望进行交流~实现动态加载网上的资源也很多,这里提供Python和Java两种编程语言的代码实现Pyth原创 2017-02-04 20:28:57 · 1984 阅读 · 2 评论 -
[转]关于JAVA的selenium安装使用
前言上一篇博客谈到如何使用python的selenium做微博爬虫, 不过该程序只适用于ubuntu系统。本来想在window也用同样的方法做爬虫,结果一个下午都尝试失败,系统总是报“window error”, 估计是python的selenium真的不兼容windows。后来改变了一下思路, 换成了Java的selenium爬虫。结果发现, java的selenium其实也不太复杂。转载 2016-12-18 20:14:29 · 535 阅读 · 0 评论