大家好!这个暑假参加了 花旗银行 举办的一个软件设计比赛,惭愧,小菜鸟一个。不过也学到了不少东西,辛苦所得,特此来和大家分享。各位大牛勿喷,给点鼓励
一般网页信息抓取
举例:
人名币牌价部分的数据,来显示到我们的javawidget上,如图
大致可以看到,这是类似于 javaswing组件中JTabbedPane 的形式,中行牌价,交行牌价,工行牌价,招行牌价
好,由于是在网页上,我抓取分析它的html代码来分析(笨办法啊)。
1.
(注意在处理网页方面的内容时,需要导入htmlparser包来支持,方便得多,具体可以Google)
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;
public class htmlmover {
}
以上代码,public static NodeList getNodeList(Stringurl)
传入需要分析网页的 url(String类型),返回值是网页Html节点List(Nodelist类型)
这个方法我没有什么要说的,刚开始的时候没看懂(没接触过),后来用了几次也懂点皮毛了
注意: parser.setEncoding("GBK");
运行该程序
2.通过浏览器工具直接查看
分析你所获得的html代码让人眼花缭乱,不要紧,找到自己需要趴取的内容,找到它上下文有特征的节点
<!--中行牌价开始-->
<divid="sw01_con1">
<tralign="center">
<td> 英镑</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<tdclass="no">962.6</td>
</tr>
<tr align="center"bgcolor="#f2f3f4">
<td>港币</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<tdclass="no">81.16</td>
</tr>
<tralign="center">
<td>美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<tdclass="no">631.69</td>
</tr>
<tr align="center"bgcolor="#f2f3f4">
<td>瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<tdclass="no">680.46</td>
</tr>
<tralign="center">
<td>新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<tdclass="no">471.25</td>
</tr>
<tr align="center"bgcolor="#f2f3f4">
<td>瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<tdclass="no">90.17</td>
</tr>
<tralign="center">
<td>丹麦克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<tdclass="no">111.13</td>
</tr>
<tr align="center"bgcolor="#f2f3f4">
<td>挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<tdclass="no">105.37</td>
</tr>
<!--{2011-10-0123:16:00}-->
</tbody>
</div>
<!--中行牌价结束-->
大家可以看到这是一段很有规律,书写非常规范的Html代码(这只是第一部分,中行牌价,可以想像,接下来还会有并列的相似的3部分)
大家想截取这些节点中的数据
以下代码仍需导入htmlparser
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Currencyrate {
}
废话不多说,
public static ArrayList<String>getNodeList(String url)
parser.setEncoding("GBK");
nodeList = parser.parse(
);
nodelist是html节点的列表,现在使用NodeFilter ( 节点过滤器 )实例,重载NodeFilter类中的accept()方法
在parser这个Parser类访问整个html页面的时候,每遇到一个html节点,就会访问这个
accept()方法,返回True的话就会将这个节点放进nodelist中,否则就不会将这个节点放进去。这个就是NodeFilter功能。
代码段一获取整个html页面时候
所以现在我们要趴取网页上的内容,只要告诉accept()这个方法,哪些节点要放进nodelist去,即遇到哪些节点需要返回true。
于是
public boolean accept(Node node){
}
Parser类在遇到节点,就把这个节点拿过去问accept(),于是accept()方法分析,如果满足getStringsByRegex(node.getText())就要了
接下来分析getStringsByRegex(),只剩下最后一步了,大家坚持啊!
String regex="td class=\"no\"";
Pattern p =Pattern.compile(regex);
Matcher m =p.matcher(txt);
if (m.find()){
}
return false;
}
大家可以发现我们索要的每一段都是
<tralign="center">
<td> 英镑</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<tdclass="no">962.6</td>
</tr>
所以只要找到<tdclass="no">这个节点就行了,我们用正则表达式去比较
String regex="td class=\"no\"";
变量txt是我们传过去的需要比较的节点的node.getText(),如果符合的话m.find就是true,于是getStringsByRegex()返回true,说明这个节点就是我们所需要的哪些节点,于是
for(int i=0;i<6;i++){
}
每一段html,6个为一组,先是962.6,然后是993.26,1001.24,992.7,100,英镑分别被add进result这个ArrayList<String>中去,返回,这个ArrayList装的就是我们需要抓取的数据
大家可以把我们所获得的String数据数出来试试看,是不是我们需要的顺序,main()函数获得ArrayList<String>,就可以显示到我们所需要的Java widget上去了
转自:http://blog.sina.com.cn/s/blog_7f95d0c40100xxsl.html