用unicode十进制编码 查看字符串里的特殊字符是什么

001 问题场景:

        需要把另一家公司抓取的网页新闻数据,导出为word文档。

        技术选型为 freemaker 。

        freemaker 导出word文件,新闻的正文部分,需要自己处理换行和缩进。

       问题来了,另一家公司抓取的网页新闻数据里,换行和缩进对应的特殊字符分别是什么呢?

       发邮件给那一家公司,结果告知就是\r\n,代码测试,根本不对。

       得自己想办法了。


002  解决方案:

            分析新闻内容的每个字符的unicode十进制编码,代码如下

                      char[] charArr = content.toCharArray();
                        for(char c:charArr){
                            int m = 0+c;
                            System.out.print("["+m+"]");
                        }

         根据原文,定位到换行的地方的特殊字符,得到如下结论

              
           换行+缩进  是连在一起的,对应为 
[10][12288][12288]  ,然后查 Unicode 编码表
           其中
           [ ] 是用于分割单个字符的
           10 代表字符 \n
           12288 代表字符   全角空格

       



       



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值