基于Java爬取微博数据二 正文长文本+导出数据Excel
- 长文本补全
- 导出微博数据到Excel
- 注意点
上一篇文章简单讲述了基于Java爬取微博数据(一),那么这篇将Java爬取的微博数据导出到Excel中。下面开始具体的操作。
长文本补全
在爬取微博数据的时候,大家可能不太会注意到这样的微博数据,比如
这样的文本数据有什么特点呢?直观的可以看到 在微博正文结束 出现了【展开】字样,那么这样的微博内容通过Java爬取数据获取到的 text 字段的取值内容是这样的
可以看到 text 字段同样返回的内容是有 【展开】 字样的,那么按常理看,微博正文内容肯定时没有获取完整的。那么这个时候就需要补齐长文本了。
在微博页面点击【展开】可以看到,触发了ajax 方法 https://weibo.com/ajax/statuses/longtext?id=Of8PMwTSJ 获取微博内容详情并补足内容展示
参数 id=Of8PMwTSJ 来自于 爬取微博数据请求链接 https://weibo.com/ajax/statuses/mymblog?uid=1686546714&page=1&feature=0 返回的数据
下面对于有 …展开 字样的微博内容,往往就是需要补足微博长文本内容的,那么可以在代码中增加如下内容
其中,cookie和在爬取微博正文内容时用的是同一个cookie,再次执行main函数看到如下内容
导出微博数据到Excel
补全了微博正文内容后,就可以进行下一步操作了,将爬取的微博数据导出到Excel中去,那么首先需要引入 Excel 相关操作 jar 包 ,pom.xml 文件增加
然后根据所需字段创建导出微博数据的实体对象类 ExcelData.java
最后就是改造 main 函数,增加导出数据操作,改造后的 main 函数结构如下
for 循环内部需要增加写入 对象 ExcelData 并放入导出列表的代码,
那么最后改造后的 main 函数的全部代码 如下
执行 main 函数,执行完成之后,看到已经成功导出到Excel 中
打开我们指定目录下的 Excel 文件
这里可以看到我们已经用再次获取的长文本内容替换了原始文本内容,补足内容了。
到这里,基于 Java 爬取微博数据,并补充长文本微博正文内容,导出微博数据到 Excel 表格的操作就完成了。
注意点
这里需要说明的是,本文主要是探索基于 Java 爬取微博数据,并补充长文本微博正文内容,导出微博数据到 Excel 表格等相关内容实现,大家有需要的可以相互学习一下。但是注意不可用于非法用途,远离“破坏计算机信息系统罪”,慎重!慎重!慎重!