一、匹配汉字
实现一个从档案中提出指定中文后对应数字的小程序,如:
很多很多的信息····
张三:18 张三其它的信息·····
很多很多的信息····
思路:
1.不能确定每个文件中都有张三这个人,所以要先判断一下张三在不在。
2.用张三把他前后的文字分隔开,再从后面的文字中挑选需要的。
一直提示错误,说是编码不对。
更正点:
1.我习惯这样来表达:u”张三“,这是把它转换成unicode,和文件中的原有编码是不一致的。所以此时应直接用“张三”。
name1 = "张三"
name2 = u"张三"
text = "我是张三"
name1 in text
True
name2 in text
False
2.注意文件的原有编码是什么,我这次收到的文件是gbk的,而之前一直都是utf-8,所以就遗漏了这个问题。因为需要批量处理文件,而文件名又是时间,于是用了一个偷懒的方法去实现转码问题。
f