Java获取CSDN博文数据

Java获取CSDN博文数据

Java获取CSDN博文数据

系统:Win10
IDE:IntelliJ IDEA 2020.3.3
JDK:1.8.0_271

最近在做一个小项目,需要将自己的CSDN的博文数据加到项目里做成可视化的,其实也就是将CSDN的数据可视化,存储到本地数据库里,然后换一套UI显示
CSDN博客数据展示:
在这里插入图片描述
本地化项目数据展示:
在这里插入图片描述

不过这里的前期数据都是我查看当天CSDN数据后,手动存储到数据库里去的,非常的不人性化。
所以这里想偷懒做到可以自动获取当天数据,然后存储进数据库内。
机智如我就去找CSDN的客服小姐姐问有没有官方公开API可以获取用户的博客数据
在这里插入图片描述

嘿嘿,结果和我想的一样,并没有(不过客服的反馈速度还是很快的)
这时我就想到,博客数据页不是有这8个数据项么,我用java爬下来写入到数据库不就OK了,后来发现这博客数据页需要登录的session,再然后我又发现了获取数据的链接,可惜需要配置Request Headers信息,不支持ajax直接跨域获取
在这里插入图片描述

最终没有办法只能想办法根据页面爬数据了,进入用户信息页
https://blog.csdn.net/qq_35132089
点击切换旧版后,可以发现我们需要的信息都在
在这里插入图片描述

我们用Java获取该用户信息页的网页代码,然后打印出来,再根据总排名信息(鼠标放上去有详细排名),查到这一块的相关的代码块

// 获取 html 内容
private static String getHTML(String targetUrl) throws Exception {
    URL url = new URL(targetUrl);
    URLConnection conn = url.openConnection();
    conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"); // 添加请求头
    InputStream is = conn.getInputStream(); // 获取输入流
    InputStreamReader isr = new InputStreamReader(is);
    BufferedReader br = new BufferedReader(isr);
    String line = null;
    StringBuffer buffer = new StringBuffer();
    while ((line = br.readLine()) != null) {
        buffer.append(line);
        buffer.append("\n");
    }
    br.close();
    isr.close();
    is.close();
    return buffer.toString();
}

在这里插入图片描述
我们再根据需要的信息,总结出对应的正则匹配规则,将我们需要的信息找出来,我这里需要的第一行带title的信息,因为里面有详细数据,所以正则表达式为

// 获取对应数据标签的正则表达式
private static String NumTagPattern = "<dl class=\"text-center\".*title=\"\\d*\">";

获取所有符合要求的标签的代码如下

// 匹配所有符合要求的标签
private static List<String> getNumTag(String html) {
    Matcher matcher= Pattern.compile(NumTagPattern).matcher(html);
    List<String> listNumTag=new ArrayList<String>();
    while (matcher.find()){
        listNumTag.add(matcher.group());
    }
    return listNumTag;
}

在这里插入图片描述
最后我们只需要将title内的详细数据信息提取出来就好了

// 匹配title和匹配其中数字的表达式
private static String TitlePattern = "title=\"\\d*\"";
private static String NumPattern = "[^0-9]";

获取对应标签内的详细数据的代码如下

// 获取title里面的数据
private static Integer getNum(String numTag) {
    Matcher matcher = Pattern.compile(TitlePattern).matcher(numTag);
    while (matcher.find()){
        String title = matcher.group();
        Matcher numMatch = Pattern.compile(NumPattern).matcher(title);
        String numStr = numMatch.replaceAll("").trim();
        int num = Integer.parseInt(numStr);
        return num;
    }
    return 0;
}

在这里插入图片描述
最后一步就是将这些数据插入到数据库即可
效果演示
在这里插入图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李晋江

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值