爬虫
我家有个艳
这个作者很懒,什么都没留下…
展开
-
HtmlUnit学习总结
本文摘抄其他博客或者技术论坛,自己搜集整理如下:HtmlUnit学习总结摘要htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。(百度百科)环境搭建MAVEN依赖dependency> group转载 2016-09-13 15:58:25 · 16876 阅读 · 3 评论 -
java字符串中Emoji表情处理
在爬虫获取字符串内容时,遇到内容中有手机表情,存入数据库是报错!网上找了半天,发现好多人不去实验一下就复制别人的代码网上发,然后导致我拿来用直接不行。最终找到一个可以行办法,在此总结一下: 方法主要有两个: 第一,修改数据库字符集: 这种方法需要的硬性要求就是你的mysql数据库版本5.5以后的。一般有数据库管理工具的,直接打开改了就是了,比如我用的HeidiSQL,直接把表改为u转载 2017-01-03 18:41:28 · 24638 阅读 · 3 评论 -
优先级队列PriorityBlockingQueue
在爬虫中如果需要对url爬取队列进行优先级爬取时,可以考虑采用此队列进行管理。PriorityBlockingQueue里面存储的对象必须是实现Comparable接口。队列通过这个接口的compare方法确定对象的priority。规则是:当前和其他对象比较,如果compare方法返回负数,那么在队列里面的优先级就比较搞。下面的测试可以说明这个断言(以下代码只为测试):查看打印结果,比较take出转载 2016-11-09 15:20:03 · 1126 阅读 · 0 评论 -
Jsoup 网络爬虫 学习例子
发现一个很好的jsoup的学习博客,整理如下: 作者地址:http://injavawetrust.iteye.com/java jsoup 网络爬虫 学习例子(一) 抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫 学习例子(二) 只抓取豆瓣电影5星(力荐)电影名称 java jsoup 网络爬虫 学习例子(三)抓取豆瓣电影海报图片 下载到本地 java jsoup 网络爬虫 学转载 2016-10-18 13:40:36 · 747 阅读 · 0 评论 -
使用phantomjs抓取JS动态生成的页面
关于phantomjsphantomjs实现了一个无界面的webkit浏览器。虽然没有界面,但dom渲染、js运行、网络访问等API都很完整。可以利用phantomjs来下载js生成的页面。下载phantomjs(http://phantomjs.org/download.html)。解压到任意目录,在Windows下将包含phantomjs.exe的目录添加到系统路径。Linux下 phantom转载 2016-10-18 10:52:26 · 8622 阅读 · 0 评论 -
HtmlUnit+Jsoup学习总结
一、网页数据大概分为三类:1.静态网页所有内容都写在Html标签中,可以从网页源代码中直接查找到数据。2.动态网页数据是通过JavaScript动态加载显示到中,直接查找源代码不能找到数据。3.登陆网页3.1 无验证码登陆需要通过登陆后才可以查看获取网页数据。(包括静态、动态)3.2 有验证码登陆(暂时还未研究)验证码目前形势也较多:传统验证图片输入拖动原创 2016-09-08 18:42:40 · 6274 阅读 · 1 评论 -
HtmlUnit学习笔记(一)--快速入门
基本步骤:1.创建WebClient对象://无参构造WebClient webClient=new WebClient();//BrowserVersion有chrome、firefox、ie等选择,创建指定的浏览器对象WebClient webClient=new WebClient(BrowserVersion.CHROME);//使用代理创建对象WebCli翻译 2016-09-02 10:47:49 · 951 阅读 · 0 评论 -
使用HtmlUnit模拟登陆新浪微博
本文非原创,原文地址:http://blog.csdn.net/bob007/article/details/29589059import java.io.IOException;import java.net.MalformedURLException;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.g转载 2016-09-01 19:41:06 · 859 阅读 · 2 评论 -
Jsoup学习总结
本文摘抄其他博客或者技术论坛,自己搜集整理如下:Jsoup学习总结摘要Jsoup是一款比较好的Java版HTML解析器。可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jSOUP主要功能从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器转载 2016-09-13 15:48:44 · 42694 阅读 · 13 评论 -
快手 sig(sign)签名算法 java版
需求:想要获取快手短视频app的用户粉丝数声明:本博文只是作为研究学习用途,请不要用于非法、商业用途。写个帖子不容易,转载请说明出处,谢谢首先需要用Fidder抓包工具找到接口地址重点来了,快手所有的接口基本都用到了一个参数sig(数据签名)声明:本博文只是作为研究学习用途,请不要用于非法、商业用途。写个帖子不容易,转载请说明出处,谢谢首先需要用Fidder抓包工具找到接口地址这个过程省略...原创 2019-03-05 22:05:45 · 16204 阅读 · 69 评论