Java提取每行文字中的网址，并将网址和文字进行切割再组装

最新推荐文章于 2024-05-11 08:27:03 发布

采橘东篱下…

最新推荐文章于 2024-05-11 08:27:03 发布

阅读量731

点赞数 2

分类专栏： Java

本文链接：https://blog.csdn.net/qq_27489571/article/details/126219842

版权

java

Java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

处理前：

处理后：

代码实现：

将文件的内容读取出来，因为网址与网站名称对应，所以需要对没有网址的那一行进行过滤，如果只有网址没有网站名称则只提取网站，

public static String readStringFromtxt(String txtpath) {
        File file = new File(txtpath);
        StringBuilder result = new StringBuilder();
        try {
            BufferedReader br = new BufferedReader(new FileReader(file));
            String s = null;
            while ((s = br.readLine()) != null) {
                //没有网址的那行就过滤掉
                if (s.contains("http")) {
                    //提取网址
                    String url = getUrl(s);
                    //提取网站名称
                    String replace = s.replace(url, "");
                    //System.out.println(url + " " + replace);
                    //将得到的数据拼接成自己想要的格式
                    result.append(System.lineSeparator() + "{\n\t" + "\"name\": \"" + replace + "\",\n\t" + "\"type\": \"url\",\n\t" + "\"url\": " + "\"" + url + "\"\n},");
                }
            }
            br.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return result.toString();
    }

通过正则表达式对网址进行提取

public static String getUrl(String input) {
        String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";
        Pattern pattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
        Matcher matcher = pattern.matcher(input);
        if (matcher.find()) {
            return matcher.group();
        }
        return "";
    }