使用ipython notebook读取GBK文件,进行split时无法分割

import codecs
import re
text = codecs.open(u'text/text.txt','r','GBK','ignore').read()
#text = text.encode("utf-8")
if isinstance(text, unicode):
    print 'yes'
sentencts = re.split('、|,|\。|\n|\r\n|!|;|:|”|—|?|《|“',text)
print "#".join(sentencts)

结果:

yes
混沌未分天地乱,茫茫渺渺无人见。

可知读取文件到python后自动将GBK格式转换为python内部格式unicode了

而ipython notebook的代码编码应该是utf-8,故那些符号是utf-8编码的,无法进行分割,加上

text = text.encode("utf-8")
后得到正确结果:
<pre style="box-sizing: border-box; overflow: auto; font-size: 14px; padding: 0px; margin-top: 0px; margin-bottom: 0px; line-height: 17.0001px; word-break: break-all; word-wrap: break-word; border: 0px; border-radius: 0px; white-space: pre-wrap; vertical-align: baseline; background-color: rgb(255, 255, 255);">混沌未分天地乱#茫茫渺渺无人见#

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值