Android-jsoup爬虫

最新推荐文章于 2022-11-16 20:25:55 发布

LaughingHe

最新推荐文章于 2022-11-16 20:25:55 发布

阅读量1k

点赞数 1

分类专栏： Android 文章标签： android java android studio

本文链接：https://blog.csdn.net/qq_36050563/article/details/109982536

版权

Android 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Android Jsoup爬虫

最近项目中需要用到一些数据，苦于没有数据源。在网上各种搜罗爬虫的第三方工具：火车头、八爪鱼这些都不太理想，偶然间发现github上有一个java开源的项目“jsoup”利用java代码去操作网页的元素，感觉可行。今天就给大家带来在android中如何使用jsoup爬虫的教程。

1.新建android工程，导入jsoup包

1.首先将jsoup的包下载下来，他是以jar包的形式提供的，也可以使用依赖的方式（这里我是用jar的形式）。下载地址：https://jsoup.org/download

2.将下载好的jar包放入工程的libs文件夹下
在这里插入图片描述
3.将jar包依赖到工程中

2.开始使用

我们来到我们新建的MainActivity中开始编写代码，这里我以爬我自己的一篇博客为例。

Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952")

通过connect(‘爬取的网址’)与此地址建立起连接。

 Document document = Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952").get();

通过get方式获取Doucment对象，如果你学习过前端对整个文档对象一定不陌生，有了他就可以操作整个html页面的元素了。注意这里会有异常tye-catch一下就好。

3.爬取

我要爬取的网页是整个样子的
在这里插入图片描述

1.比如我想爬取这个网页的标题，先要在浏览器中F12审查元素，点击左上角的小箭头指向这个标题
在这里插入图片描述
这里的h1就是标题，他有class 和 id 有这两个我们就能很好的找到这个标题了，当然通过’‘h1’'标签也能找到。

public class MainActivity extends AppCompatActivity {

    private static final String TAG = "MainActivity";

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        new Thread(){
            @Override
            public void run() {
                try {
                    Document document = Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952").get();
                    Element title = document.getElementById("articleContentId");
                    Log.e(TAG, "run: "+title.text());
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }.start();
    }
}