python登录邮箱爬邮件_Python 爬邮箱

"""网络爬虫爬邮箱"""

from bs4 importBeautifulSoupimportrequestsimportrequests.exceptionsfrom urllib.parse importurlsplitfrom collections importdequeimportreimportosimportcsvclassEmailCrawler:"""邮箱爬虫"""

#邮箱正则表达式

__email_addr_pattern = r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+"

def crawl(self, urls, output:str = ''):"""爬取

\n参数: urls - 网址列表或者文件(.txt,.csv); output - 导出文件名"""new_urls= deque() #网址列表

processed_urls = set() #已爬的网址

emails = set() #邮箱地址

if type(urls) isdeque:

new_urls=urlselif type(urls) islist:

new_urls=deque(urls)elif type(urls) isstr:

data=list()ifos.path.exists(urls):

data= self.__readCSVData(urls)else:

data= urls.split(',')

new_urls=deque(data)else:print("不支持的参数!")returnemails"""开始爬取"""

#遍历网址直到结束

whilelen(new_urls):#从队列头部推出一个网址

url =new_urls.popleft()

processed_urls.add(url)#提取基本网址与路径已解决相对链接

parts =urlsplit(url)

base_url= "{0.scheme}://{0.netloc}".format(parts)

path= url[:url.rfind('/')+1] if '/' in parts.path elseurl#获取网址内容

print("Processing %s" %url)try:

response=requests.get(url)except(requests.exceptions.MissingSchema, requests.exceptions.ConnectionError):#忽略页面错误

continue

#提取页面中的所有email,并且将它们添加到结果集

new_emails = set(re.findall(self.__email_addr_pattern, response.text, re.I))if len(new_emails) >0:

emails.update(new_emails)print(new_emails)#给文档创建beautiful soup

soup = BeautifulSoup(response.text, features="lxml")#找到并处理文档中所有的锚

for anchor in soup.find_all('a'):#从锚中提取链接

link = anchor.attrs['href'] if 'href' in anchor.attrs else ''

#处理内部链接

if link.startswith('/'):

link= base_url +linkelif not link.startswith('http'):

link= path +link#添加新链接

if not link in new_urls and not link inprocessed_urls:

new_urls.append(link)if len(output) >0:

self.__writeCSVData(emails, output)returnemailsdef __readCSVData(self, filename):"""读取文件"""data=list()

with open(filename,'r') as f:

f_csv=csv.reader(f)for row inf_csv:

data.append(row[0])returndatadef __writeCSVData(self, data, filename):"""数据写入文件"""with open(filename,'w', newline='') as f:

f_csv=csv.writer(f)

f_csv.writerows(data)if __name__ == '__main__':#urls = 'http://www.themoscowtimes.com'

#urls = ['http://www.themoscowtimes.com']

urls = 'urls.txt'output= 'email.csv'emailCrawl=EmailCrawler()

emailCrawl.crawl(urls, output)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要现定时运行 Python 脚本并发送邮件,可以使用 Python 的第三方库 schedule 和 smtplib。 首先,安装这两个库: ```python pip install schedule ``` ```python pip install secure-smtplib ``` 接下来,编写 Python 脚本,实现定时发送邮件的功能: ```python import schedule import time import smtplib from email.mime.text import MIMEText from email.header import Header # 定义发送邮件的函数 def send_email(): # 邮件内容 mail_content = '这是一封测试邮件' # 发送方信息 sender = '发送方邮箱' password = '发送方邮箱密码' # 接收方信息 receivers = ['接收方邮箱'] # 邮件标题和内容 message = MIMEText(mail_content, 'plain', 'utf-8') message['From'] = Header(sender) message['To'] = Header(','.join(receivers)) message['Subject'] = Header('测试邮件') # 发送邮件 try: smtp_obj = smtplib.SMTP_SSL('smtp.qq.com', 465) smtp_obj.login(sender, password) smtp_obj.sendmail(sender, receivers, message.as_string()) print('邮件发送成功') except smtplib.SMTPException as e: print('邮件发送失败', e) # 定义定时任务 def job(): print('开始发送邮件...') send_email() # 设置定时任务,每隔一定时间执行一次 schedule.every(10).minutes.do(job) # 每隔10分钟执行一次 # schedule.every().hour.do(job) # 每小时执行一次 # schedule.every().day.at('10:30').do(job) # 每天10:30执行一次 # 循环执行定时任务 while True: schedule.run_pending() time.sleep(1) ``` 在上述代码中,`send_email()` 函数定义了如何发送邮件,而 `job()` 函数则定义了定时任务的具体内容。在这里,我们将每隔10分钟执行一次 `job()` 函数,可以根据自己的需要设置定时任务的时间间隔。 最后,在命令行中运行该 Python 脚本即可。注意,为了保证邮件能够正常发送,需要在发送方邮箱的设置中开启 SMTP 服务,并且在代码中填写正确的发送方邮箱和密码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值