爬虫
CrazyL-
记录学习点点滴滴,一次共勉
展开
-
WebCollector爬取JS加载的数据
转载: http://datahref.com/archives/30需引入selenium<dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-java</artifactId> <version>2.44.0</version></dependency>使用Seleni转载 2017-07-03 10:23:54 · 1779 阅读 · 0 评论 -
WebCollector——断点爬取
转载: http://datahref.com/archives/200crawler.setResumable(true);crawler.start(xxx);Notice that if you involve the Crawler.start(int round) method in non-resumable mode, all your history data would转载 2017-07-03 10:13:08 · 1272 阅读 · 0 评论 -
WebCollector ——MetaData
转发: http://bbs.datahref.com/topics/43//注入addSeed(new CrawlDatum("http://cn.bing.com/search?q=手抓饼&first=1").meta("keyword", "手抓饼").meta(pageNum, 1));//解析@Overridepublic void visit(Page page, Cra转载 2017-07-03 09:25:22 · 366 阅读 · 0 评论 -
jsoup修改数据
转载: https://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/#4修改数据outline doc.select("div.comments a").attr("rel", "nofollow"); // 为所有链接增加 rel=nofollow 属性 doc.select("div.comments a").addClass("m转载 2017-06-04 15:08:24 · 922 阅读 · 0 评论 -
jsoup例子
转载: https://www.javatpoint.com/jsoup-examplesGet title of URLDocument doc = Jsoup.connect("http://www.javatpoint.com").get(); String title = doc.title(); Get title from HTML fileDocument doc = Jsou转载 2017-06-04 14:40:32 · 718 阅读 · 0 评论 -
jsoup API
转载: https://www.javatpoint.com/jsoup-apiorg.jsoup org.jsoup.helper org.jsoup.nodesorg.jsoup.parser org.jsoup.safety org.jsoup.select比较重要的方法 |method|description|转载 2017-06-04 14:29:21 · 526 阅读 · 0 评论 -
jsoup介绍
转载: https://www.javatpoint.com/jsoup-tutorialJsoup is a java html parser. It is a java library that is used to parse HTML document. Jsoup provides api to extract and manipulate data from URL or HTML f转载 2017-06-04 14:25:29 · 322 阅读 · 0 评论 -
爬取B站视频 - m4s文件的相关研究
相关教程的直通车:怎样在电脑上下载哔哩哔哩的视频?如何下载B站(bilibili)视频手动法b站视频怎么保存在手机本地偶遇的网站:看哔哩哔哩唧唧-哔哩哔哩唧唧-bilibili视频|弹幕在线下载BiliPlus , ( ゜- ゜)つロ 乾杯~爱哔哩(bilibili视频、音频mp3解析下载站)爬取B站视频目录一、前言 ↶最近一段时间,突然想爬B站视频,发现竟然不是f...转载 2019-10-31 09:45:03 · 34293 阅读 · 6 评论 -
通过BrowserMob Proxy获取网站network请求
参考: https://github.com/lightbody/browsermob-proxy#new-browsermobproxy-apihttp://www.assertselenium.com/browsermob-proxy/performance-data-collection-using-browsermob-proxy-and-selenium/网站加载过程中,通过F12可以看原创 2017-06-28 07:19:07 · 7375 阅读 · 0 评论 -
jsoup分析a标签绝对路径
下面代码引用自WebCollector: cn.edu.hfut.dmic.webcollector.model.Linksimport org.jsoup.nodes.Element;…… public Links addByRegex(Document doc, RegexRule regexRule) { Elements as = doc.select("a[hr原创 2017-06-22 13:49:24 · 3360 阅读 · 0 评论 -
利用Chrome与迅雷下载斗鱼录播视频
转载: https://www.sawlove.com/download-douyu-video.html我们都知道视频网站为了保护版权防止盗链下载一般都使用分段视频的方式来加载。对于一般的 .flv 格式就几段最多也就十几段视频源,但 .ts 的格式正常每段几M,一小时左右的视频基本要几百段,即使知道视频源手动下载有点累。接下来分享一个无痛的方法,并且只须用到系统常用软件!一、获取视频源转载 2017-06-21 16:23:18 · 11455 阅读 · 0 评论 -
斗鱼TV Web API
转载: http://430.io/-xie-dou-yu-tv-web-api-some-douyutv-api/写在最前 去年TI5前开发了dotaonly.com,网站需要用到各个直播平台API。不像国外网站Twitch那样开放,都有现成的API可用,国内网站都很封闭,对开发者不太友好。本文所涉及API皆抓取自斗鱼IOS手机客户端。首先是不需要登录的API 获取当前全部直播 请求地址:转载 2017-06-21 16:15:00 · 9304 阅读 · 1 评论 -
抓取b站视频地址
还是密钥。。。转载: http://blog.jln.co/%E4%B8%80%E4%BA%9B%E5%81%9A%E7%88%AC%E8%9F%B2%E7%9A%84%E5%B7%A5%E5%85%B7%E8%88%87%E6%96%B9%E6%B3%95/這個範例稍微做了點弊, 但還是從頭把分析過程來講一下好了Bilibili視頻網頁長得就像這樣: 範例 - http://www.bilibi转载 2017-06-21 14:29:19 · 21117 阅读 · 1 评论 -
B站最新算法2017年有效
问题还是密钥。。。转载: https://www.idaima.com/article/3503知道我的人都知道 ibilibili.com和idaima.com 都是我注册的,做解析站也有3年了,当然ibilibili.com中途被人恶意注册并高价挂在网上卖,我筹了很久的钱才买回来的。为的就是一个情怀!!!废话不多说了。算法基于反编译bilibili播放器得到的。密钥自己找咯。php;toolb转载 2017-06-21 14:22:20 · 5979 阅读 · 0 评论