python最简单的爬取邮箱地址_python小脚本-提取邮箱

使用python正则表达式,在一堆各种字符中提取是邮箱名的字符串。

import re

file = open("AT.txt")

c=[]

for line in file.readlines():

contant = re.findall(r"[\w\d\.-_]+(?=\@)",line)

mail=list(set(contant))

for i in mail:

if i != "":

print i

c.append(i)

Num = len(c)

print Num

正则表达式[\w\d\.-_]+(?=\@)解析:

首先理解字符集,字符集所在位置可以是字符集中任意所以开始[\w\d\.-_]代表可以出现则代表邮箱@之前可以出现字母、数字、.、-、_。紧接在[]字符集之后+代表至少要匹配一次,说明@之前可以有多个字符,(?=\@)则表示之前的字符指导@截止,并且@不计算在之内。

list(set(contant))用于去除里面相同的邮箱名

for i in mail:这个for循环体,代表去除re.findall查找结果中的空列表。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值