关于正则表达式re.sub替换字符串的问题

我是一名Python初学者,在使用网站正则表达式 – 简介 | 菜鸟教程学习正则表达式。

在学习的过程中突发奇想,想着使用找规律的方式将学习的目录给导出来,但由于水平实在有限,所以只能采用手动的方式进行操作,具体操作步骤如下:

1.先将网站的源代码复制近一个sourcetxt文件,然后找到目录的开头和结尾。

2.开头为<div class="sidebar-box gallery-list">,结束为<div class="col middle-column">

3.代码如下:

import re
f=open('F:\Python\source.txt','r',encoding='UTF-8')
source=f.read()
every_reply=re.findall('sidebar-box gallery-list(.*?)col middle-column',source,re.S)
print(every_reply)  #便于查找,可以注释掉
for reply in every_reply:
    title=re.findall('title="(.*?)"',reply,re.S)
    url=re.findall('href="(.*?)"',reply,re.S)
for j in range(len(title)):
    print('Nmae:{} Url:{}'.format(title[j],url[j]))

输出结果如下:

Nmae:正则表达式 &#8211; 教程 Url:/regexp/regexp-tutorial.html
Nmae:正则表达式 &#8211; 简介 Url:/regexp/regexp-intro.html
Nmae:正则表达式 &#8211; 语法 Url:/regexp/regexp-syntax.html
Nmae:正则表达式 - 修饰符 Url:/regexp/regexp-flags.html
Nmae:正则表达式 &#8211; 元字符 Url:/regexp/regexp-metachar.html
Nmae:正则表达式 &#8211; 运算符优先级 Url:/regexp/regexp-operator.html
Nmae:正则表达式 &#8211; 匹配规则 Url:/regexp/regexp-rule.html
Nmae:正则表达式 &#8211; 示例 Url:/regexp/regexp-example.html
Nmae:正则表达式在线测试 Url:http://c.runoob.com/front-end/854

我发现在名称中出现了"&#8211"的乱码,所以想使用re.sub进行替换,代码如下:

import re
f=open('F:\Python\source.txt','r',encoding='UTF-8')
source=f.read()
every_reply=re.findall('sidebar-box gallery-list(.*?)col middle-column',source,re.S)
print(every_reply)  #便于查找,可以注释掉
for reply in every_reply:
    title=re.findall('title="(.*?)"',reply,re.S)
    url=re.findall('href="(.*?)"',reply,re.S)
for i in range(len(title)):
    re.sub('表达式 .*? ','',title[i])
for j in range(len(title)):
    print('Nmae:{} Url:{}'.format(title[j],url[j]))

但是发现输出结果保持不变,请问一下问题出现在哪里?应该如何解决??

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值