001 问题场景:
需要把另一家公司抓取的网页新闻数据,导出为word文档。
技术选型为 freemaker 。
freemaker 导出word文件,新闻的正文部分,需要自己处理换行和缩进。
问题来了,另一家公司抓取的网页新闻数据里,换行和缩进对应的特殊字符分别是什么呢?
发邮件给那一家公司,结果告知就是\r\n,代码测试,根本不对。
得自己想办法了。
002 解决方案:
分析新闻内容的每个字符的unicode十进制编码,代码如下
char[] charArr = content.toCharArray();
for(char c:charArr){
int m = 0+c;
System.out.print("["+m+"]");
}
根据原文,定位到换行的地方的特殊字符,得到如下结论
换行+缩进 是连在一起的,对应为 [10][12288][12288] ,然后查 Unicode 编码表
其中
[ ] 是用于分割单个字符的
[ ] 是用于分割单个字符的
10 代表字符 \n
12288 代表字符
全角空格