Spider
文章平均质量分 77
dataee
解决方案咨询
大数据处理
系统架构
展开
-
heritrix-1.14.4开发环境搭建
环境描述: OS:XP Memory:4G CPU:酷睿双核1.6 Dev:Myeclipse6.5 JDK:1.5步骤如下: Step1:下载heritrix-1.14.4-src.zip 下载heritrix-1.14.4.zip 分别解压 Step2:Myeclipse6.5新建web...2011-04-30 14:43:15 · 151 阅读 · 0 评论 -
HtmlUnit抓取js渲染页面
需求:需要采集js渲染的页面,有些网站的页面是js渲染的实现:基于HtmlUnit实现:public static void getAjaxPage() throws Exception{ WebClient webClient = new WebClient(); webClient.setJavaScriptEnabled(true); webClient.set...2013-10-30 17:03:37 · 650 阅读 · 0 评论 -
基于Xpath采集和讯网经济人物Java实现
背景需求:采集和讯网的财经人物,url为:http://renwu.hexun.com/,采集人物名称然后保存。思路:基于dom4j采集,根据url规则遍历获取,直到没有人物数据,基于xpath解析出最终的人物名称。实现:private static void getRWData(Set<String> set) throws Exception { Stri...2013-10-29 14:26:02 · 102 阅读 · 0 评论 -
基于概率的网页正文页抽取代码实现
具体的方案参见博客基于概率的网页正文页抽取方案代码实现如下:maven依赖:<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.4</version> <sco2013-10-24 11:30:31 · 150 阅读 · 0 评论 -
基于概率的网页正文页抽取方案
背景:需要抽取网页的正文页和列表页 分析:1.同一类型的网页其变化的是内容,不变的是样式布局2.解析dom tree,叶子节点为文本,那么深度遍历全树可以获取其文本值3.变化的是内容不变的是样式布局,那么可以基于概率构造需要数据的xpath 思路:1.获取所有节点的xpath,保存xpath和文本值2.遍历n个同类型的网页获取满足某一概率的所有变化的xpa...2013-10-18 16:51:30 · 109 阅读 · 0 评论 -
基于NekoHTML和dom4j获取所有html的Xpath
背景:获取html页面所有有text节点的xpath 思路:NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。而dom4j可以很好的用于XML,XPath和XSL。基于html构建xml基于xml获取所有的有text的xpath 环境:<depe...2013-10-12 17:10:16 · 213 阅读 · 0 评论 -
新闻正文提取之boilerpipe
概述:Boilerpipe即我们需要的正文提取工具,其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息,包括多种提取方式具体的参见:CommonExtractors 环境:jdk1.6boilerpipe-1.2.0 提取新闻正文demo代码如下:public static void main(String[] args) throws Excepti...2013-10-11 17:14:31 · 570 阅读 · 0 评论 -
新闻正文提取之joyhtml
joyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。环境描述:jdk1.6joyhtml-0.2.2 提取新闻正文demo代码如下:public static void main(String[] args) throws Exception { DOMParser parser = n...2013-10-11 16:49:52 · 153 阅读 · 0 评论 -
基于Jsoup获取页面的header map,title和keywords
需求:需要采集页面的title和keyword实现:依赖:<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.6.3</version></depend2013-12-26 11:27:03 · 1191 阅读 · 0 评论 -
Java基于url获取host的两种方法
需求:基于url获取host,case如下:http://snv.iteye.com/blog/1992991结果为snv.iteye.comsnv.iteye.com/blog/1992991结果为snv.iteye.comhttps://snv.iteye.com/blog/1992991结果为snv.iteye.comhttp://snv.iteye.html结果为“”...2013-12-26 10:02:10 · 5610 阅读 · 0 评论 -
采用Jsoup解析网络资源
Jsoup为一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。场景如下:1.获取京东的图书类目2.以类目id为key,类目名称为value保存到map中代码如下:private static Map<String, String> getWareCategory() { Connection conn = Jsoup.connect...2013-02-17 14:33:14 · 97 阅读 · 0 评论 -
IKAnalyzer和Ansj切词Demo
IKAnalyzer IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。切词Demo代码如下:public static void ikSeg() throws Throwable { String content = "Java编程思想(第4版)"; IKSegmentation ikSeg = new IKSegmentation...2013-03-28 17:50:58 · 194 阅读 · 0 评论 -
图中是否有环的判断
有向图判断方法:对图进行拓扑排序,如果能够拓扑排序那么就是无环,否则有环无向图判断方式:递归依次删除度数为1的节点,如果最后仍然存在未删除的那么图中有环具体的证明可以自己去试试看去...原创 2011-05-11 13:48:40 · 133 阅读 · 0 评论 -
jsoup之文本过滤
背景:基于jsoup(v 1.6.3)解析出来的网页内容进行过滤不需要的内容比如<script>实现:一种方式是基于tag的白名单,这种方式明显没有黑名单合适,不过jsoup木有提供黑名单功能直接基于正则,常用的如下:如:过滤<script>String reg = "<\\s*?script[^>]*?>[\\s\\S]*?&l...2015-07-16 10:37:15 · 853 阅读 · 1 评论