网页爬虫静态网页<一>

最新推荐文章于 2022-05-07 19:23:34 发布

柳千渡

最新推荐文章于 2022-05-07 19:23:34 发布

阅读量754

点赞数

分类专栏：网页爬虫，安卓扣数据文章标签：扣网页数据网页爬虫审查元素抓取网页数据

本文链接：https://blog.csdn.net/a289973483/article/details/78447926

版权

网页爬虫，安卓扣数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、通过Jsoup请求获取网页审查元素。

eg：

REQUEST_PATH = "http://blog.csdn.net/a289973483/article/details/52790217";

Document doc = Jsoup.connect(REQUEST_PATH).get();

二、查看需要扣取数据的标签，通过日志输出 doc的body。

eg：

Log.v(TAG, "body :"+ doc.body());

三、查看打印的日志，找到需要的数据的节点。

eg:

可以看到其中的需要的主体本在在article_c节点中。

四、通过article_c节点获取到内容。

eg：

Elements allElements = doc.getElementsByClass("article_c");

五、通过获取的元素读取元素中的文本。

eg:

int size = allElements.size();
Log.v(TAG, "size" + size);
String reslut = "";
if(size> 0 ){
ArrayList<String> listtemp = new ArrayList<String>();
for (Element ele : allElements) {
String text = ele.text();
listtemp.add(text);
reslut += text;
Log.v(TAG, "TEXT: " + text);
}
final String finalReslut = reslut;
runOnUiThread(new Runnable() {
@Override
public void run() {
hellworld.setText(finalReslut);
}
});
//DetailDataUtil.getStockList(listtemp);

}

做调试用的源码，仅供参考：http://download.csdn.net/download/a289973483/10107891