百度贴吧爬虫之获取邮箱系列基础版
-
可以直接看我的增强版,任意邮箱
-
花了一个小时写了这点代码,不够完美,但是能用。
- 前几天爬虫抓取了百度贴吧的留言,现在准备获取我们想要的信息,那就是邮箱
- 废话不多说,直接上代码
- python3.6的环境
- 功能:获取文本中的邮箱
- 读文本,且获取文本中的QQ邮箱,163邮箱
- 对获得的邮箱去重
- 写入新的文件
import re
# strings = "Please contact media@nostarch.com for " \
# "493412979@qq.com assistance" \
# "gashsh@163.com"
f = open('test.txt', 'r',encoding='utf-8')#读取文件
strings=f.read()#获取文件内容,到内存
f.close()#读关闭
match = re.findall(r'\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,8}\b',strings)#正则匹配
f1 = open('test1.txt','a',encoding='utf-8')#打开新的文件
list2 = list(set(match))#去重
list_nums = len(list2)#列表的数量,长度
#循环写入文件,并换行
for line in range(list_nums):
f1.writelines(list2[line]+"\n")
#关闭流
f1.close()
原始文本文件text.txt:
执行完程序之后的样子:test1.txt
从实现功能上讲,完美提取,完美去重,但是代码有待进一步优化。