字符串处理中的错误:05279

标签: 文件读取 字符问题 05278 BOM
4人阅读 评论(0) 收藏 举报
分类:

问题现场:    

    今天我编写一个简单的主题爬虫,需要从文件爱你里读取主题字符串,然后对网页中的锚文本匹配,比如主题词s1是“党”,锚文本s2是“全面从严治党”,那么s2包含主题词。但是出现问题:s2.contains(s1) 返回结果是false。

问题分析过程:

    既然不匹配,那么打印两个字符串看看,从控制台上用肉眼观查没有发现特殊的异样。

    分析两个字符串长度:s1.length()==2 。将其转化为字符数组,首个字符值是05279。

出现原因:

   “WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。它是一串隐藏的字符,用于让记事本等编辑器识别这个文件是否以UTF-8编码。 ”

    我出现的原因是用Windows自带的笔记本新建的文件,另存为了UTF-8。当我改用Notepad,把格式转换为UTF-8无DOM格式后,问题就解决了。


总结:

    这种问题多分析、多接触就能解决了~

查看评论

深入Javascript字符串实战视频课程

-
  • 1970年01月01日 08:00

Java字符串处理的几个常用方法

字符串 1、获取字符串的长度 length() 2 、判断字符串的前缀或后缀与已知字符串是否相同 前缀 startsWith(String s) 后缀 endsWith(String s) ...
  • zolalad
  • zolalad
  • 2014-06-04 16:24:17
  • 4080

ccf+字符串的处理,就是string的使用

点击打开链接#include #include #include #include #include #include #include #include #define LL long long #...
  • u013554860
  • u013554860
  • 2016-04-06 13:29:38
  • 273

java基础之字符串处理总结

Java中的字符串处理主要有下面三个类来处理的:String、StringBuffer、StringBuilder。三者区别综述:1,String、StringBuffer、StringBuilder...
  • baidu_25310663
  • baidu_25310663
  • 2016-04-28 19:32:33
  • 580

字符串处理中的常见问题

  • 2016年01月13日 18:31
  • 88KB
  • 下载

shell不得不知的“内置字符串处理”

总结了shell中内置的字符串处理功能,包括> ${} # % :- :+ ? 等的使用 使用内置操作符处理字符串时,性能较好...
  • wuzhimang
  • wuzhimang
  • 2016-11-24 12:40:51
  • 821

字符串专题文档

  • 2012年08月20日 20:18
  • 953KB
  • 下载

Java学习:Java字符串处理

第一节、String对象                     一、       Java中将字符串作为String类型对象来处理。当创建一个String对象时,被创建的字符串是不能被改变的。每次需...
  • zxg0807
  • zxg0807
  • 2007-11-06 10:06:00
  • 15831

Shell 脚本之字符串处理

xyz@Gentoo:~$ str="administrator,why,main,share,appelate" xyz@Gentoo:~$ echo ${str#a*r} ator,why,mai...
  • xyz_yz
  • xyz_yz
  • 2013-11-21 20:33:04
  • 454

数据库字符串处理 很不错

  • 2010年07月01日 23:50
  • 642B
  • 下载
    个人资料
    持之以恒
    等级:
    访问量: 5万+
    积分: 2012
    排名: 2万+
    最新评论