网页爬虫 静态网页<一>

一、通过Jsoup请求获取 网页审查元素。


     eg:


     REQUEST_PATH = "http://blog.csdn.net/a289973483/article/details/52790217";


     Document doc = Jsoup.connect(REQUEST_PATH).get();


二、查看需要扣取数据的标签,通过日志输出 doc的body。


     eg:


     Log.v(TAG, "body :"+ doc.body());


三、查看打印的日志,找到需要的数据的节点。


    eg:
   

    可以看到其中的需要的主体本在在article_c节点中。


四、通过article_c节点 获取到内容。


    eg: 


    Elements allElements = doc.getElementsByClass("article_c");


五、通过获取的元素 读取元素中的文本。


    eg:


    int size = allElements.size();
    Log.v(TAG, "size" + size);
    String reslut = "";
    if(size> 0 ){
                ArrayList<String> listtemp = new ArrayList<String>();
                for (Element ele : allElements) {
                    String text = ele.text();
                    listtemp.add(text);
                    reslut += text;
                    Log.v(TAG, "TEXT: " + text);
    }
    final String finalReslut = reslut;
    runOnUiThread(new Runnable() {
           @Override
         public void run() {
         hellworld.setText(finalReslut);
    }
   });
    //DetailDataUtil.getStockList(listtemp);
            
}


相关的JAR包:http://download.csdn.net/download/a289973483/10107792

做调试用的源码,仅供参考:http://download.csdn.net/download/a289973483/10107891



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值