Jsoup&HttpClient
iteye_16572
这个作者很懒,什么都没留下…
展开
-
使用Jsoup解析html网页
一、 JSOUP简介在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP,以后的处理HTML的内容只需要使用JSOUP就已经足够了,JSOUP有更快的更新,更方便的API等。jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地...原创 2013-05-16 18:11:13 · 132 阅读 · 0 评论 -
JSOUP org.jsoup.HttpStatusException HTTP error fetching URL. Status=403, URL=
org.jsoup.HttpStatusException: HTTP error fetching URL. Status=403, URL=http://xxxx.com/xxx/xxx/xxx.html 设置下userAgent,伪装成浏览器就可以了 Jsoup.connect("http://xxxx.com/xxx/xxx/xxx.html").userAg...原创 2013-06-21 11:04:54 · 1730 阅读 · 0 评论 -
JSOUP通配符的使用
Elements.select("ElementName[Attribute^=Value]");//AttributeName属性以code开始的所有ElementName标签 Elements.select("ElementName[Attribute$=Value]");//AttributeName属性以code结束的所有ElementName标签 Elements.select...原创 2013-06-25 15:43:31 · 516 阅读 · 0 评论 -
HttpClient4.3模拟登陆OSChina开源社区
import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.URISyntaxException;import java.util.ArrayList;import java.util.List;imp...2014-03-25 08:26:25 · 145 阅读 · 0 评论 -
HttpClient4.3模拟登录ITEYE
import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.util.ArrayList;import java.util.List;import org.apache.http.HttpEntity;import o...原创 2014-03-25 10:45:35 · 121 阅读 · 0 评论 -
Jsoup对HTML 文档清理
jsoup 在提供强大的 API 同时,人性化方面也做得非常好。在做网站的时候,经常会提供用户评论的功能。有些用户比较淘气,会搞一些脚本到评论内容中,而这些脚本可能会破坏整个页面的行为,更严重的是获取一些机要信息,例如 XSS 跨站点攻击之类的。jsoup 对这方面的支持非常强大,使用非常简单。看看下面这段代码:清单 5. String unsafe = "<p>...原创 2014-03-27 13:38:31 · 427 阅读 · 0 评论 -
jsoup 的过人之处——选择器
前面我们已经简单的介绍了 jsoup 是如何使用选择器来对元素进行检索的。本节我们把重点放在选择器本身强大的语法上。下表是 jsoup 选择器的所有语法详细列表。表 2. 基本用法:tagname使用标签名来定位,例如 ans|tag使用命名空间的标签定位,例如 fb:name 来查找 <fb:name> 元素#id使用元素 id 定位,例...原创 2014-03-27 13:43:21 · 87 阅读 · 0 评论