python爬取百度贴吧

最新推荐文章于 2023-10-28 13:38:56 发布

VIP文章 almost_Mr

最新推荐文章于 2023-10-28 13:38:56 发布

阅读量635

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/almost_mr/article/details/53546315

版权

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib2  
import re

#----------- 处理页面上的各种标签 -----------  
class HTML_Tool:  
    # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片  
    BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")  
    # 用非 贪婪模式 匹配 任意 <> 标签  
    EndCharToNoneRex = re.compile("<.*?>") 

    # 用非 贪婪模式 匹配 任意 <p> 标签  
    BgnPartRex = re.compile("<p.*?>")  
    CharToNewLineRex = re.compile("(<br/>|</p>|<tr>|<div>|</div>)")  
    CharToNextTabRex = re.compile("<td>")  

    # 将一些html的符号实体转变为原始符号  
    replaceTab = [("<","<"),(">",">"),("&","&"),("&","\""),(" "," ")]  

    def Replace_Char(self,x):  
        x = self.BgnCharToNoneRex.sub("",x)  
        #re.compile()的sub方法,sub(repl, string[, count]),使用repl替换string中每一个匹配的子串后返回替换后的字符串
        x = self.BgnPartRex.sub("\n    ",x)  
        x = self.CharToNewLineR

最低0.47元/天解锁文章

优惠劵

almost_Mr

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取百度贴吧

import sysreload(sys)sys.setdefaultencoding('utf-8')import urllib2 import re#----------- 处理页面上的各种标签 ----------- class HTML_Tool: # 用非贪婪模式匹配 \t 或者 \n 或者空格或者超链接或者图片 BgnCharToNon
复制链接

扫一扫