（毕设1）爬虫+mysql+flask+echarts实现网站数据可视化(附源码)

最新推荐文章于 2024-05-12 21:06:41 发布

m0_66557301

最新推荐文章于 2024-05-12 21:06:41 发布

阅读量2.9k

点赞数 2

分类专栏：前端 html 文章标签： npm vue.js 前端

本文链接：https://blog.csdn.net/m0_66557301/article/details/123325018

版权

3.3将2中清洗后的数据通过navicat导入

4.flask web网站的搭建

4.1 使用pycharm建一个flask项目

1. 项目要求与内容

利用python爬取数据并进行清洗和预处理，将清洗后的数据存到mysql数据库中，后端利用flask框架，用Echarts实现数据可视化。

1.2完成项目基本内容：

爬取豆瓣读书top250网页上相关信息；
对爬取保存下来的数据文件进行清洗和预处理；
将清洗好的数据导入数据库；
进行需求分析，对要实现的数据可视化效果进行分析，创建相应的数据库表并导入数据；
选用python语言进行后端管理：
2. 开发工具及相关技术
pycharm
navicat
mysql

2.数据爬取

2.1分析url，网页源码

2.2编写代码

# 1. 导入库包
import requests
from lxml import etree
from time import sleep
import os
import pandas as pd
import re

BOOKS = []
IMGURLS = []

# 2. 获取网页源代码
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    # 异常处理
    try:
        html = requests.get(url, headers=headers)
        # 声明编码方式
        html.encoding = html.apparent_encoding
        # 判断
        if html.status_code == 200:
            print('成功获取源代码')
            # print(html.text)
    except Exception as e:
        print('获取源代码失败：%s' % e)
    # 返回html
    return html.text

# 3. 解析网页源代码
def parse_html(html):
    html = etree.HTML(html)
    # 每个图书信息分别保存在 class="indent" 的div下的 table标签内
    tables = html.xpath("//div[@class='indent']//table")
    # print(len(tables))  # 打印之后如果是25的话就是对的
    books = []
    imgUrls = []

    # 遍历通过xpath得到的li标签列表
    # 因为要获取标题文本，所以xpath表达式要追加 /text(), t.xpath返回的是一个列表，且列表中只有一个元素所以追加一个[0]
    for t in tables:
        # title = t.xpath(".//div[@class='p12']/a/@title")  # 匹配得到的是空的
        # 书名
        title = t.xpath(".//td[@valign='top']//a/@title")[0]
        # 链接
        link = t.xpath(".//td[@valign='top']//a/@href")[0]

        # 获取pl标签的字符串
        pl = t.xpath(".//td[@valign='top']//p[1]/text()")[0]

        # 截取国家
        if '[' in pl:
            country = pl.split('[')[1].split(']')[0]
        else:
            country = '中'  # 没有国家的默认为“中国”

        # 截取作者
        if '[' in pl:
            author = pl.split(']')[1].split('/')[0].replace(" ", "")
        elif len(pl.split('/')) == 3:
            author = '无'
        elif len(pl.split('/')) == 2:
            author = pl.split('/')[0]

        elif '[' not in pl:
            if len(pl.split('/')) == 4:
              author = pl.split('/')[-4]
            elif len(pl.split('/')) == 5:
                author = pl.split('/')[-5]
            elif len(pl.split('/')) == 6:
              author = pl.split('/')[-6]

        else:
            author = '无'

        # 截取翻译者
        if len(pl.split('/')) == 3:
            translator = ' '
        elif '[' in pl:
            if len(pl.split('/')) == 4:
               translator = pl.split('/')[-3]
            elif len(pl.split('/')) == 5:
               translator = pl.split('/')[-4]
            elif len(pl.split('/')) == 6:
               translator = pl.split('/')[-5]

        else:
            translator = ' '

        # 截取出版社
        if len(pl.split('/')) == 2:
            publisher=pl.split('/')[0]
        elif  len(pl.split('/'))== 3:
            publisher = pl.split('

最低0.47元/天解锁文章

m0_66557301

关注

2
点赞
踩
48

收藏

觉得还不错? 一键收藏
1
评论
（毕设1）爬虫+mysql+flask+echarts实现网站数据可视化(附源码)

目录1. 项目要求与内容?2.数据爬取2.1分析url，网页源码2.2编写代码2.3 数据清洗3.数据存储3.1?mysql中需要建立的6张表3.2 建表语句3.3将2中清洗后的数据通过navicat导入4.flask web网站的搭建4.1 使用pycharm建一个flask项目4.2 后端4.3 前端4.4项目框架5.项目展示6.源码?点击1. 项目要求与内容利用python爬取数据并进行清洗和预处理，将清洗后的数据存到mysql数据库中，后端利用flask框架，用
复制链接

扫一扫