import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib2
import re
#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
# 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片
BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")
# 用非 贪婪模式 匹配 任意 <> 标签
EndCharToNoneRex = re.compile("<.*?>")
# 用非 贪婪模式 匹配 任意 <p> 标签
BgnPartRex = re.compile("<p.*?>")
CharToNewLineRex = re.compile("(<br/>|</p>|<tr>|<div>|</div>)")
CharToNextTabRex = re.compile("<td>")
# 将一些html的符号实体转变为原始符号
replaceTab = [("<","<"),(">",">"),("&","&"),("&","\""),(" "," ")]
def Replace_Char(self,x):
x = self.BgnCharToNoneRex.sub("",x)
#re.compile()的sub方法,sub(repl, string[, count]),使用repl替换string中每一个匹配的子串后返回替换后的字符串
x = self.BgnPartRex.sub("\n ",x)
x = self.CharToNewLineR
python爬取百度贴吧
最新推荐文章于 2023-10-28 13:38:56 发布