python定时爬取网站更新_详解python定时简单爬取网页新闻存入数据库并发送邮件...

最新推荐文章于 2023-07-28 21:25:40 发布

weixin_39997695

最新推荐文章于 2023-07-28 21:25:40 发布

阅读量1.2k

点赞数 1

文章标签： python定时爬取网站更新

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39997695/article/details/111783667

版权

本文记录了一个初学者的Python项目，该项目能定时从北京工业大学官网爬取新闻，将数据存储到MySQL数据库，并通过邮件发送。主要涉及requests、BeautifulSoup、pymysql、smtplib、schedule等库的使用。

摘要由CSDN通过智能技术生成

本人小白一枚，简单记录下学校作业项目，代码十分简单，主要是对各个库的理解，希望能给别的初学者一点启发。

一、项目要求

1、程序可以从北京工业大学首页上爬取新闻内容：http://www.bjut.edu.cn

2、程序可以将爬取下来的数据写入本地MySQL数据库中。

3、程序可以将爬取下来的数据发送到邮箱。

4、程序可以定时执行。

二、项目分析

1、爬虫部分利用requests库爬取html文本，再利用bs4中的BeaultifulSoup库来解析html文本，提取需要的内容。

2、使用pymysql库连接MySQL数据库，实现建表和插入内容操作。

3、使用smtplib库建立邮箱连接，再使用email库将文本信息加工成邮件消息并发送。

4、使用schedule库实现定时执行该程序。

三、代码分析

1、导入需要的库：

# 爬虫相关模块

import requests

from bs4 import BeautifulSoup

import pymysql

# 发邮件相关模块

import smtplib

from email.mime.text import MIMEText

from email.header import Header

import time

# 定时模块

import schedule

2、获取html文件：

# 连接获取html文本

def getHTMLtext(url):

try:

headers={

"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36",

} # 浏览器请求头

r = requests.get(url, headers = headers, timeout = 30) # 获取连接

r.raise_for_status() # 测试连接是否成功，若失败则报异常

r.encoding = r.apparent_encoding # 解析编码

return r.text

except:

return ""

其中必须添加请求头headers否则get请求时会返回错误页面。

raise_for_status()可以根据状态码判断连接对象的状态，如果成功便继续执行，若连接失败则抛出异常，因此利用try-except捕获。

apparent_encoding()方法可以解析判断可能的编码方式。

3、解析html提取数据：

首先观察网页源码确定新闻标签位置：

# 解析html提取数据

def parseHTML(news, html):

soup = BeautifulSoup(html, "html.parser") # 获取soup

for i in soup.find(attrs = {'class' : 'list'}).find_all('li'): # 存放新闻的li标签

date = i.p.string + '-' + i.h2.string # 日期

href = i.a['href&

最低0.47元/天解锁文章

weixin_39997695

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。