pythonchalleage leve2

最新推荐文章于 2022-09-18 19:55:53 发布

zhuqianUESTC

最新推荐文章于 2022-09-18 19:55:53 发布

阅读量268

点赞数

分类专栏： python 编程文章标签： pythonchalleage

本文链接：https://blog.csdn.net/u012420309/article/details/50132005

版权

python 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

编程

7 篇文章 0 订阅

订阅专栏

题目网址http://www.pythonchallenge.com/pc/def/ocr.html

从网页源代码的指定的大段注释中找“rare character“。

import sys, urllib
import re


url = "http://www.pythonchallenge.com/pc/def/ocr.html"
wp = urllib.urlopen(url)  #打开
content = wp.read()  #读入


p = re.compile(r'<!--([\s\S]*?)-->')  #正则
out = p.findall(content)[1]
res = [c for c in out if c.isalpha()]
print ''.join(res)

注意点：

正则表达式不能用''。

1. '.'不能匹配空格，换行符等。

2. '.*'是贪婪匹配，会匹配尽量多的字符。比如content='<body>...</body>','<(.*)>'匹配的结果是'body>...</body'。*号后面加?号，则是以最少的内容匹配。

zhuqianUESTC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pythonchalleage leve2

题目网址http://www.pythonchallenge.com/pc/def/ocr.html从网页源代码的指定的大段注释中找“rare character“。import sys, urllibimport reurl = "http://www.pythonchallenge.com/pc/def/ocr.html"wp = urllib.urlopen(url) #
复制链接

扫一扫

专栏目录