一般网页信息抓取(Java htmlparser)

大家好!这个暑假参加了 花旗银行 举办的一个软件设计比赛,惭愧,小菜鸟一个。不过也学到了不少东西,辛苦所得,特此来和大家分享。各位大牛勿喷,给点鼓励

一般网页信息抓取   --Java篇

举例:  http://forex.hexun.com/rmbhl/  这是和讯外汇网,比如现在我想要抓取 网页中段

人名币牌价部分的数据,来显示到我们的javawidget上,如图

 一般网页信息抓取(Java <wbr>htmlparser)

 

大致可以看到,这是类似于 javaswing组件中JTabbedPane 的形式,中行牌价,交行牌价,工行牌价,招行牌价

 

 

好,由于是在网页上,我抓取分析它的html代码来分析(笨办法啊)。

 

1.   你可以选择用Java代码来找到整个网页的html代码,如下

(注意在处理网页方面的内容时,需要导入htmlparser来支持,方便得多,具体可以Google)

 

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.HtmlPage;

import org.htmlparser.Parser;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.util.NodeList;

 

public class htmlmover {

   public static void main(String[] args){    

      NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/"); 

      System.out.println(rt.toHtml());

   }   

   public static NodeList getNodeList(Stringurl){

      Parser parser = null;

      HtmlPage visitor = null;

      try {

           parser = new Parser(url);

           parser.setEncoding("GBK");

           visitor = new HtmlPage(parser);

           parser.visitAllNodesWith(visitor);

      } catch (ParserException e) {

           e.printStackTrace();

      }

      NodeList nodeList = visitor.getBody();

      return nodeList;

   }

}

 

 

以上代码,public static NodeList getNodeList(Stringurl)  为主体

传入需要分析网页的 url(String类型),返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的,刚开始的时候没看懂(没接触过),后来用了几次也懂点皮毛了

注意: parser.setEncoding("GBK");  可能你的工程编码格式是UTF-8,有错误的话需要改动

 

运行该程序

 

2.通过浏览器工具直接查看  IE是按F12  (刚开始没发现这个方法,于是傻乎乎地找上面的代码)

 

 

分析你所获得的html代码让人眼花缭乱,不要紧,找到自己需要趴取的内容,找到它上下文有特征的节点

 

<!--中行牌价开始-->

<divid="sw01_con1">

      <table width="655" border="0" cellspacing="0"cellpadding="0" class="hgtab">

              <thead>

                     <tr>

                           <th width="85" align="center"class="th_l">交易币种</th>

                           <th width="80"align="center">交易单位</th>

                           <th width="130"align="center">现价(人民币)</th>

                           <th width="80"align="center">卖出价</th>

                           <th width="100"align="center">现汇买入价</th>

                           <th width="95"align="center">现钞买入价</th>

                     </tr>

              </thead>

              <tbody>

<tralign="center">

<td> 英镑</td>

<td>100</td>

<td>992.7</td>

<td>1001.24</td>

<td>993.26</td>

<tdclass="no">962.6</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>港币</td>

<td>100</td>

<td>81.54</td>

<td>82.13</td>

<td>81.81</td>

<tdclass="no">81.16</td>

</tr>

<tralign="center">

<td>美元</td>

<td>100</td>

<td>635.49</td>

<td>639.35</td>

<td>636.8</td>

<tdclass="no">631.69</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>瑞士法郎</td>

<td>100</td>

<td>710.89</td>

<td>707.78</td>

<td>702.14</td>

<tdclass="no">680.46</td>

</tr>

<tralign="center">

<td>新加坡元</td>

<td>100</td>

<td>492.45</td>

<td>490.17</td>

<td>486.27</td>

<tdclass="no">471.25</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>瑞典克朗</td>

<td>100</td>

<td>93.66</td>

<td>93.79</td>

<td>93.04</td>

<tdclass="no">90.17</td>

</tr>

<tralign="center">

<td>丹麦克朗</td>

<td>100</td>

<td>116.43</td>

<td>115.59</td>

<td>114.67</td>

<tdclass="no">111.13</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>挪威克朗</td>

<td>100</td>

<td>110.01</td>

<td>109.6</td>

<td>108.73</td>

<tdclass="no">105.37</td>

</tr>

<!--{2011-10-0123:16:00}-->             

</tbody>

      </table>

</div>

<!--中行牌价结束-->

 

大家可以看到这是一段很有规律,书写非常规范的Html代码(这只是第一部分,中行牌价,可以想像,接下来还会有并列的相似的3部分)

 

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包 

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

 

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

 

public class Currencyrate {

      public static void main(String[] args){    

          String url="http://forex.hexun.com/rmbhl/";

          ArrayList<String> rt=getNodeList(url);      

          for (int i = 0; i < rt.size();i++){

             System.out.println(rt.get(i));

          }      

      }         

 

      public static ArrayList<String>getNodeList(String url){

          final ArrayList<String>result=new ArrayList<String>();

          Parser parser = null;

          NodeListnodeList=null;

          try {

             parser = new Parser(url);

             parser.setEncoding("GBK");

 

             nodeList = parser.parse(

                    new NodeFilter(){

                        @Override

                        public boolean accept(Node node){

                           Node need=node;

                           if(getStringsByRegex(node.getText())){

                               for(int i=0;i<6;i++){

                               result.add(need.toPlainTextString());                          need=need.getPreviousSibling().getPreviousSibling();

                               }

                               return true;

                           }                          

                           return false;

                        }                   

                    }

             );               

          }catch (ParserException e) {

             e.printStackTrace();

          }

          return result;

      }    

      

      public static boolean getStringsByRegex(String txt){

          String regex="td class=\"no\"";   

          Pattern p = Pattern.compile(regex);

         Matcher m = p.matcher(txt);

         if (m.find()){

             return true;

         }  

         return false;

      }

}

 

废话不多说,

public static ArrayList<String>getNodeList(String url)  主要方法 

parser.setEncoding("GBK");    需要注意,代码编码格式

 

nodeList = parser.parse(

   new NodeFilter(){

      @Override

       public boolean accept(Node node){

      }

   

);

nodelist是html节点的列表,现在使用NodeFilter ( 节点过滤器 )实例,重载NodeFilter类中的accept()方法

parser这个Parser类访问整个html页面的时候,每遇到一个html节点,就会访问这个

accept()方法,返回True的话就会将这个节点放进nodelist中,否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点

 

所以现在我们要趴取网页上的内容,只要告诉accept()这个方法,哪些节点要放进nodelist去,即遇到哪些节点需要返回true

于是

public boolean accept(Node node){

      Node need=node;

      if(getStringsByRegex(node.getText())){

          for(int i=0;i<6;i++){

                              result.add(need.toPlainTextString());                need=need.getPreviousSibling().getPreviousSibling();

          }

          return true;

      }

      return false;

}

Parser类在遇到节点,就把这个节点拿过去问accept(),于是accept()方法分析,如果满足getStringsByRegex(node.getText())就要了

 

接下来分析getStringsByRegex(),只剩下最后一步了,大家坚持啊!

 

String regex="td class=\"no\"";   

Pattern p =Pattern.compile(regex);

Matcher m =p.matcher(txt);

if (m.find()){

     return true;

}  

return false;

}

大家可以发现我们索要的每一段都是

<tralign="center">

<td> 英镑</td>

<td>100</td>

<td>992.7</td>

<td>1001.24</td>

<td>993.26</td>

<tdclass="no">962.6</td>

</tr>

所以只要找到<tdclass="no">这个节点就行了,我们用正则表达式去比较

String regex="td class=\"no\"";     这个是比较标准(正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示 \        

变量txt是我们传过去的需要比较的节点的node.getText(),如果符合的话m.find就是true,于是getStringsByRegex()返回true,说明这个节点就是我们所需要的哪些节点,于是

for(int i=0;i<6;i++){

 result.add(need.toPlainTextString());          need=need.getPreviousSibling().getPreviousSibling();

}

每一段html,6个为一组,先是962.6,然后是993.26,1001.24,992.7,100,英镑分别被add进result这个ArrayList<String>中去,返回,这个ArrayList装的就是我们需要抓取的数据

 

大家可以把我们所获得的String数据数出来试试看,是不是我们需要的顺序,main()函数获得ArrayList<String>,就可以显示到我们所需要的Java widget上去了

阅读更多
换一批

没有更多推荐了,返回首页