目录
1. 项目要求与内容
利用python爬取数据并进行清洗和预处理,将清洗后的数据存到mysql数据库中,后端利用flask框架,用Echarts实现数据可视化。
1.2完成项目基本内容:
爬取豆瓣读书top250网页上相关信息;
对爬取保存下来的数据文件进行清洗和预处理;
将清洗好的数据导入数据库;
进行需求分析,对要实现的数据可视化效果进行分析,创建相应的数据库表并导入数据;
选用python语言进行后端管理:
2. 开发工具及相关技术
pycharm
navicat
mysql
2.数据爬取
2.1分析url,网页源码
2.2编写代码
# 1. 导入库包
import requests
from lxml import etree
from time import sleep
import os
import pandas as pd
import re
BOOKS = []
IMGURLS = []
# 2. 获取网页源代码
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
# 异常处理
try:
html = requests.get(url, headers=headers)
# 声明编码方式
html.encoding = html.apparent_encoding
# 判断
if html.status_code == 200:
print('成功获取源代码')
# print(html.text)
except Exception as e:
print('获取源代码失败:%s' % e)
# 返回html
return html.text
# 3. 解析网页源代码
def parse_html(html):
html = etree.HTML(html)
# 每个图书信息分别保存在 class="indent" 的div下的 table标签内
tables = html.xpath("//div[@class='indent']//table")
# print(len(tables)) # 打印之后如果是25的话就是对的
books = []
imgUrls = []
# 遍历通过xpath得到的li标签列表
# 因为要获取标题文本,所以xpath表达式要追加 /text(), t.xpath返回的是一个列表,且列表中只有一个元素所以追加一个[0]
for t in tables:
# title = t.xpath(".//div[@class='p12']/a/@title") # 匹配得到的是空的
# 书名
title = t.xpath(".//td[@valign='top']//a/@title")[0]
# 链接
link = t.xpath(".//td[@valign='top']//a/@href")[0]
# 获取pl标签的字符串
pl = t.xpath(".//td[@valign='top']//p[1]/text()")[0]
# 截取国家
if '[' in pl:
country = pl.split('[')[1].split(']')[0]
else:
country = '中' # 没有国家的默认为“中国”
# 截取作者
if '[' in pl:
author = pl.split(']')[1].split('/')[0].replace(" ", "")
elif len(pl.split('/')) == 3:
author = '无'
elif len(pl.split('/')) == 2:
author = pl.split('/')[0]
elif '[' not in pl:
if len(pl.split('/')) == 4:
author = pl.split('/')[-4]
elif len(pl.split('/')) == 5:
author = pl.split('/')[-5]
elif len(pl.split('/')) == 6:
author = pl.split('/')[-6]
else:
author = '无'
# 截取翻译者
if len(pl.split('/')) == 3:
translator = ' '
elif '[' in pl:
if len(pl.split('/')) == 4:
translator = pl.split('/')[-3]
elif len(pl.split('/')) == 5:
translator = pl.split('/')[-4]
elif len(pl.split('/')) == 6:
translator = pl.split('/')[-5]
else:
translator = ' '
# 截取出版社
if len(pl.split('/')) == 2:
publisher=pl.split('/')[0]
elif len(pl.split('/'))== 3:
publisher = pl.split('