python抓取豆瓣top250电影信息，并将数据存储到mysql

最新推荐文章于 2023-09-12 10:46:03 发布

VIP文章 Master的救赎

最新推荐文章于 2023-09-12 10:46:03 发布

阅读量1.3k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/Master_MC/article/details/81740972

版权

刚学python网上找的练手项目，实现起来比较容易，希望对大家有帮助

需求分析：

python爬取豆瓣电影信息
对数据进行清洗
将清洗好的数据存储到mysql

下面是实现代码

爬虫+数据清洗部分，数据清洗暂时简单的使用replace()函数，主要用于解析导演，演员等信息，最后的sql引用数据库连接函数执行拼接的sql

import requests
from bs4 import BeautifulSoup
import databaseConnect

# 爬取网页信息函数
def get_html(web_url):
    try:
        html = requests.get(web_url).text # 加text将返回值变为字符串
    except requests.exceptions.ConnectionError:
        print('ConnectionError')
    except requests.exceptions.ChunkedEncodingError:
        print('ChunkedEncodingError')
    except:
        print('Unfortunitely -- An Unknow Error Happened')
    try:
        Soup = BeautifulSoup(html, "lxml")  # 了解lxml类型？
        data = Soup.find("ol").find_all("li")  # 查找Soup中ol标签里所有的li标签,find_all返回一个列表
    except:
        pri

最低0.47元/天解锁文章

Master的救赎

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
python抓取豆瓣top250电影信息，并将数据存储到mysql

刚学python网上找的练手项目，实现起来比较容易，希望对大家有帮助需求分析：python爬取豆瓣电影信息对数据进行清洗将清洗好的数据存储到mysql下面是实现代码爬虫+数据清洗部分，数据清洗暂时简单的使用replace()函数，主要用于解析导演，演员等信息，最后的sql引用数据库连接函数执行拼接的sqlimport requestsfrom bs4 import Be...
复制链接

扫一扫