刚学python网上找的练手项目,实现起来比较容易,希望对大家有帮助
需求分析:
- python爬取豆瓣电影信息
- 对数据进行清洗
- 将清洗好的数据存储到mysql
下面是实现代码
- 爬虫+数据清洗部分,数据清洗暂时简单的使用replace()函数,主要用于解析导演,演员等信息,最后的sql引用数据库连接函数执行拼接的sql
import requests
from bs4 import BeautifulSoup
import databaseConnect
# 爬取网页信息函数
def get_html(web_url):
try:
html = requests.get(web_url).text # 加text将返回值变为字符串
except requests.exceptions.ConnectionError:
print('ConnectionError')
except requests.exceptions.ChunkedEncodingError:
print('ChunkedEncodingError')
except:
print('Unfortunitely -- An Unknow Error Happened')
try:
Soup = BeautifulSoup(html, "lxml") # 了解lxml类型?
data = Soup.find("ol").find_all("li") # 查找Soup中ol标签里所有的li标签,find_all返回一个列表
except:
pri