Python关于list里面的unicode编码

利用Python2.7结巴分词对文本分词之后存进list列表里面

import jieba
seg_list = jieba.cut("网络,让我们之间的距离变的如此之近,也如此遥远。")
a = [i for i in seg_list]
a = str(a).replace('u\'','\'')  
s = a.decode("unicode-escape")  
print s

此时seg_list是一个生成器generator。如果不存进列表直接一次性打印的话,需要添加print ' '.join(seg_list)。

存进列表之后如果只是到了第一个a就输出的话,结果如下:

[u'\u7f51\u7edc', u'\uff0c', u'\u8ba9', u'\u6211\u4eec', ...]

 

此时如果直接索引的话,打印出来是正常中文,如print a[0]。

为了将list里面的字符串更换为中文,需要先将前面的u替换为空,之后利用decode函数解码,结果如下:

['网络', '让', '我们', '之间', '的', '距离', '变', '的', '如此', '之近', ',', '也', '同时', '让', '我们', '变', '的', '如此', '遥远', '。']

此时list全部变成unicode格式。如果文本包含标点符号也能分得出来,例如,“清峪路260-278号(双)、258弄33、35号”,结果如下:

['清峪路', '260', '-', '278', '号', '(', '双', ')', '、', '258', '弄', '33', '、', '35', '号']

结巴分词如果需要去掉标点符号,则在jieba.cut加上参数:

seg_list = jieba.cut("清峪路260-278号(双)、258弄33、35号",cut_all=True)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
回答: 在Python的json库中,当使用dumps函数将中文转换为json字符串时,默认会将中文转换为Unicode编码,并以16进制方式存储。这是因为Python3将Unicode作为默认编码。如果想要显示中文而不是Unicode编码,可以在dumps函数中添加参数ensure_ascii=False。这样就可以将中文以原始形式显示出来。\[1\]\[2\]你可以参考这个链接了解更多信息:https://stackoverflow.com/questions/956867/how-to-get-string-objects-instead-of-unicode-from-json。 #### 引用[.reference_title] - *1* [python2下解决json的unicode编码问题](https://blog.csdn.net/weixin_35514865/article/details/113480461)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [解决Python3将数据保存为json,中文显示为Unicode编码的问题](https://blog.csdn.net/fyfugoyfa/article/details/122373856)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [python json unicode utf-8处理总结](https://blog.csdn.net/weixin_39751453/article/details/111430758)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值