Android从WebView中获取html,得到页面显示的文本

private void initView() {
    WebView mWebView = findViewById(R.id.webview);
    mWebView.loadUrl("file:///android_asset/book/GUID-0B7E066B-D444-4C7C-918F-339F9D7B5319.html");

    //使webview支持javascript
    WebSettings mSetting = mWebView.getSettings();
    mSetting.setJavaScriptEnabled(true);

    //添加一个js交互对象
    mWebView.addJavascriptInterface(new InJavaScriptLocalObj(), "java_obj");

    //添加一个WebViewClient监听状态,并且在完成时通过js调用java对象的方法
    mWebView.setWebViewClient(new WebViewClient() {
        @Override
        public void onPageFinished(WebView view, String url) {
            view.loadUrl("javascript:window.java_obj.getSource(document.documentElement.outerHTML);void(0)");
            super.onPageFinished(view, url);
        }
    });
}
getSource中解析
public final class InJavaScriptLocalObj {
    //一定也要加上这个注解,否则没有用
    @JavascriptInterface
    public void getSource(String html) {
    	//获取html中的所有文本
        String regFormat = "\\s*|\t|\r|\n";
        String regTag = "<[^>]*>";
        speechText = html.replaceAll(regFormat,"").replaceAll(regTag,"");

        //删掉style
        speechText = speechText.substring(speechText.indexOf("}") + 1);
        speechText = speechText.substring(speechText.indexOf("}") + 1);

        //删掉title
        Document doc = Jsoup.parseBodyFragment(html);
        String title = doc.select("title").text();
        speechText = speechText.replaceFirst(title,"");

        //删除图片名称
        Elements imgs = doc.getElementsByClass("guid-img");
        if (imgs != null && !imgs.isEmpty()) {
            for(int i = 0;i < imgs.size();i++){
                String image = imgs.get(i).text();
                Log.i("YYYY","delete pic name " + image);
                speechText = speechText.replaceAll(image,"");
            }
        }

        //删掉表格
        String table = doc.select("table").text();
        table = table.replaceAll(" ","");
        speechText = speechText.replaceAll(table,"");

        //最后输出
        Log.i("YYYY","final text = " + speechText);
    }
}
通过jsoup提取标签,需要在app的build.gradle中添加:
implementation 'org.jsoup:jsoup:1.9.2' 
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值