python中的中文问题

# coding:utf-8
# coding:unicode_escape
import re
import codecs

# 在打开一个文件读取的时候,再同时打开一个文件来写入。
# 通过反斜杠来对过长的代码行进行拆分,
# 但要注意在\后面不要有任何字符,包括空格。
with codecs.open("movies.txt", "r", encoding="utf-8") as f, \
        codecs.open("data.txt", "w", encoding="utf-8") as out:
    for line in f:
        new_line = line.replace("\xa0", " ").strip()
        
        #获取排名跟标题
        temp = new_line.split()
        ranking = temp[0]
        title = temp[1]
        
        # 获取电影年份
        matched = re.search('\s+(\d{4})(\s|\()', new_line)
        year = matched.group(1)

        # 通过一个稍微复杂的正则来获取电影的国家,标签,评分以及评价人数
        matched = re.match(".+/\s(.+)\s/\s(.+?)\s+(\d\.\d)\s+(\d+)人评价", new_line)
        country, tag, rating, comment = matched.group(1, 2, 3, 4)
        
        # 每个数据使用逗号分隔组成一行,保存到文件data.txt里
        print("{},{},{},{},{},{},{}".format(ranking,title,rating, year,country,tag,comment),file=out)

visual studio 2022

调试

在这里插入图片描述

原因是第24行中有中文

将中文删去后:

在这里插入图片描述

这样就可以了!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值