python多线程爬虫学习--去除html的标签

ezLeo

于 2017-08-16 00:29:16 发布

阅读量4.4k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/myiloveuuu/article/details/77204193

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

 
  import re
import urllib

page = urllib.urlopen("http://www.baidu.com")
html  = page.read()

pattern = re.compile(r'<[^>]+>', re.S)
result = pattern.sub('', html)

print result 
  
 re.compile返回的是一个正则的表达的的样式，后面会根据这个样式进行去除 
 
 关键地带在"r'<[^>]+>'",这个是表示以'<'开始的,'[^>]'匹配除去'>'符号的所有其他符号，'+'表示出现次数为1次或者无限次。

ezLeo

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python多线程爬虫学习--去除html的标签

import reimport urllibpage = urllib.urlopen("http://www.baidu.com")html = page.read()pattern = re.compile(r']+>', re.S)result = pattern.sub('', html)print resultre.compile返回的是一个正则的表达的
复制链接

扫一扫

专栏目录