python爬取邮件内容_python爬取邮箱

最新推荐文章于 2024-02-26 23:56:32 发布

weixin_39631017

最新推荐文章于 2024-02-26 23:56:32 发布

阅读量708

点赞数

文章标签： python爬取邮件内容

1 importurllib22 importre3 from pyquery importPyQuery as pq4 from lxml importetree5 importurlparse6 importtime78 allUrls =set()9 allMails =set()10 urlsDownlist =[]1112 classmailCrawler:13 def __in...

摘要由CSDN通过智能技术生成

1 importurllib22 importre3 from pyquery importPyQuery as pq4 from lxml importetree5 importurlparse6 importtime7

8 allUrls =set()9 allMails =set()10 urlsDownlist =[]11

12 classmailCrawler:13 def __init__(self,mailExpression,start_url,maxcount):14 '''mailExpressoin 邮箱的正则表达式;15 start_url开始邮箱；16 maxcount最大数量'''

17 self.mailpattern =re.compile(mailExpression)18 self.maxcount =maxcount19 self.htmlcount =020 self.UrlsQlist = []#url queue 实现广度优先

21 self.url =start_url22

23

24 defurl_normal(self,url):25 '''url 规范化'''

26 scheme,netloc,path,query = urlparse.urlsplit(url)[:4]27 netloc =netloc.lower()28

29 url.encode("utf-8")30

31 ifpath:32 path = re.sub('/{2,}','/',path)#去除url中的重复/

33 path = re.sub(r'\.$','',path)#去除url中结尾多余的点

34 path = re.sub('/$','&#

最低0.47元/天解锁文章

weixin_39631017

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取邮件内容_python爬取邮箱

1 importurllib22 importre3 from pyquery importPyQuery as pq4 from lxml importetree5 importurlparse6 importtime78 allUrls =set()9 allMails =set()10 urlsDownlist =[]1112 classmailCrawler:13 def __in...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。