JSOUP
robinliu2010
这个作者很懒,什么都没留下…
展开
-
主题:jsoup使用
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。请参考:http://jsoup.org/ jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、转载 2012-05-20 00:51:47 · 449 阅读 · 0 评论 -
jsoup解析百度音乐
导入相应的jar包****************************************************package com.segsec.crm.baidu;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileOutputStream;转载 2012-05-20 21:23:19 · 1066 阅读 · 0 评论 -
Android开发系列十:使用Jsoup解析HTML页面
在写Android程序时,有时需要解析HTML页面,特别是那类通过爬网站抓取数据的应用,比如:天气预报等应用。如果是桌面应用可以使用htmlparser这个强大的工具,但是在Android平台上使用会出现错误;另一种办法是使用正则表达式来抽取数据;再有一个办法是纯字符串查找定位来实现。文本将要介绍的是使用Jsoup这个开源的解析器来实现。Jsoup既可以通过一个url网址,也可以通过存储h转载 2012-05-20 21:21:34 · 770 阅读 · 0 评论 -
浏览器了解(六)RenderTree
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);} v\:* {behavior:url(#default#VML);} o\:* {behavior:ur转载 2012-05-20 21:09:52 · 987 阅读 · 0 评论 -
利用jsoup 如何从网页中下载图片
来自:http://www.open-open.com/bbs/view/1320576549952如何从网页中下载图片如果做为爬虫很有必要从网页中下载图片到本地,那么我们利用jsoup来进行该操作,jsoup 是一个很不错的html解析器。下面是它的简介:jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可转载 2012-05-20 00:46:32 · 807 阅读 · 0 评论 -
jsoup抓图
import org.jsoup.Jsoup; 2 import org.apache.commons.io.FileUtils; 3 import java.io.File; 4 5 Response request = Jsoup.connect(src).referrer(src) 6 .userAgent("Mozilla/5.0 (Window转载 2012-05-20 21:23:54 · 491 阅读 · 0 评论 -
利用Jsoup解析HTML
http://passover.blog.51cto.com/2431658/484673 最近又要做html内容抽取,这次打算尝试一下除了用正则表达式以外的其他方式。自然第一个想到的就是HtmlParser,结果找到了以后发现最近的更新还是在06年,汗!这个时候很意外的发现了Jsoup,试用了一下感觉相当清爽,推荐一下。 如果你很有兴趣,直接去官方网站看下说明文档,地址是htt转载 2012-05-20 21:18:40 · 676 阅读 · 0 评论 -
浏览器了解(五)资源加载顺序
资源加载顺序在加载web资源时,首先下载html文件,进行html解析,在遇到javascript或css标签时,启动相应的解析机处理。当遇到外部资源时(如)启动网络接口程序,下载对应的资源并交由相应的解析机处理。在执行javascript的解析的时候,为了保证javascript操作DOM的准确性,此时DOMTree的构建工作必须被中断掉(当然对于HTML资源序列化和输入DOM构建机转载 2012-05-20 21:08:53 · 1514 阅读 · 0 评论 -
浏览器了解(四)javascript解析
Javascript解析首先我们来了解以下几点:1. javascript是如何操作DOMTree的?浏览器通过binding机制完成javascript和DOM的绑定,简单来说,javascript引擎启动时,浏览器将DOM对象预置到javascript内嵌对象中,这样javascript就把DOM当做内嵌对象来使用了。2. 如何实现浏览器的javascrip转载 2012-05-20 21:07:25 · 422 阅读 · 0 评论 -
浏览器了解(三)CSS解析
CSS解析CSS的解析涉及到两大部分1. CSS词法分析(Lexer)CSS的词法分析通过flex来实现,可以在Tokenizer.cpp中找到定义的token2. CSS语法分析(Parser)CSS语法分析通过bison来实现,可以在CSSGrammar.h中找到语法的具体实现 基于以上两点,可以生成可执行的CSS解释器的C代转载 2012-05-20 21:06:31 · 659 阅读 · 0 评论 -
浏览器了解(二)HTML解析过程
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);}HTML解析过程假设有这样一段HTML文本: html> body> p>转载 2012-05-20 21:05:43 · 927 阅读 · 0 评论 -
Jsoup进阶之获取指定数据
使用Jsoup解析html中的指定数据,十分方便。Jsoup工具十分强大,十分好用。但网上似乎没有很好的例子,本文的目的即在于此。建议仔细阅读代码中的几个例子,Jsoup解析数据不外乎这几种类型。第一步:将Jsoup JAR包导入项目第二步:使用Jsoup API1, 定位通过div的属性值,定位到html的div(块),即所需要内容对应的块。示例代码如下: div c转载 2012-05-20 20:54:08 · 815 阅读 · 0 评论 -
通过JAVA获取优酷、土豆、酷6、6间房、56视频
http://www.iteye.com/topic/998790通过JAVA获取优酷、土豆、酷6、6间房、56视频,现在很多社会网站都有这个功能,用户输入优酷、土豆、酷6、6间房、56视频地址后,能找到对应的视频及视频的缩略图,有些社区网站还能获取到视频的时长。比如:新浪微博就有这个功能,当用户输入优酷、土豆、酷6、6间房、56视频网址后,就能获取到相应的视频地址及视频的缩略图。转载 2012-05-20 01:01:30 · 2984 阅读 · 2 评论 -
通过JAVA获取优酷视频
通过JAVA获取优酷视频,现在很多社会网站都有这个功能,用户输入优酷视频地址后,能找到对应的视频及视频的缩略图,有些社区网站还能获取到视频的时长。 比如:新浪微博就有这个功能,当用户输入视频网址后,就能获取到相应的视频地址及视频的缩略图。 Java代码 http://www.iteye.com/topic/984220import java.io.IOExcepti转载 2012-05-20 00:59:00 · 2337 阅读 · 1 评论 -
JSOUP简介
http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使转载 2012-05-20 00:55:14 · 818 阅读 · 0 评论 -
Jsoup 介绍
http://womendu.iteye.com/blog/867363今天给大家介绍一款强大的,方便的,基于Java的Html parser — Jsoup。相比于大家熟悉的HtmlParser,Jsoup显得更强大,更易用。如果你使用过Jquery的选择器,那么当你使用Jsoup时,你会感到是那么的亲切…Jsoup是一个方便于操作HTML的开源的java类库,基于MIT协议发布。其提供转载 2012-05-20 00:49:49 · 506 阅读 · 0 评论 -
浏览器了解(七)Layout
Layout浏览器在Render之后已经确认了Render元素的大小,样式等信息,但是此时还没有确定元素的具体位置信息,这里还需要一个Layout过程。Layout过程计算元素的位置信息,通常情况下浏览器的中下面的元素的布局不会影响到上面的元素的布局,所以Layout可以自上而下地进行。其坐标位置基于Frame,使用top和left来定位。Layout的范围:1. 全局转载 2012-05-20 21:11:09 · 783 阅读 · 0 评论 -
浏览器了解(一)浏览器大概流程
浏览器大概流程我们知道浏览器从加载网页到显示有一个过程,大致如下 首先是从网络接口获取网页的内容,当然最先得到的是HTML,这是会进行HTML的解析过程(如果此时遇到外部资源,会再次启动网络接口获取外部资源,对于相应的外部资源会给对应的解析器处理,如javascript会交给javascript引擎处理,css会交给CSS解析器处理。构建DOM树,如果遇到CSS,会将CSS交转载 2012-05-20 21:08:06 · 552 阅读 · 0 评论 -
学习Jsoup(三)
从数据库中读出文档地址,并把地址中的文件装入数据库 这段时间还在研究这个JSOUP,对于一个缺乏网络基础的我来说,确实还得从头学起。 要掌握JSOUP,首先要对HTML和网页知识有清晰的了解,特别是DOM和网页的标签、元素、属性等概念以及应用。 JSOUP有两个功能,一个是装入document,一个是对document进行select,过滤。装载有几种不同形式,比如url、原创 2012-04-05 22:59:42 · 445 阅读 · 0 评论