【数据可视化】通过使用网络爬虫对数据爬取并进行可视化分析

db_hjx_2066

已于 2023-06-27 18:22:00 修改

阅读量5.7k

点赞数 6

文章标签： python 开发语言信息可视化网络爬虫

于 2023-06-23 20:15:56 首次发布

本文链接：https://blog.csdn.net/A2085354461/article/details/131188250

版权

本文介绍了使用Python网络爬虫爬取柳州职业技术学院电子信息工程学院超星课程中心的数据，对历年课程创建数、点击量、月创建量进行分析，并制作词云图。通过数据可视化揭示了学院在线学习资源的发展趋势和学生需求变化。

摘要由CSDN通过智能技术生成

项目介绍

本次项目所爬取的网页为柳州职业技术学院电子信息工程学院的超星学习通课程中心。在该网页中可以查看到电子信息工程学院历年的超星课程创建情况，还可以进入到课程界面查看相应的教学资源。

在该网页中，详细记录了课程序号、课程名称、课程链接、所属院系、课程负责人、课程点击量、课程创建时间等信息，本次项目采用爬虫针对这些网页信息进行获取，数据清理和数据分析，进行简单的数据可视化处理，挖掘出数据的价值，并在一定的条件下对数据进行应用。

项目介绍

一、Python网络爬虫介绍

在学习python网络爬虫中，我们常用的对网页数据进行爬取的方法主要有以下几种。

1.使用正则表达式对网页数据进行提取。
2.使用xpath查询网页节点，提取出网页有用的信息。
3.使用Beautiful Soup解析和提取网页中信息。
4.使用json，解析使用AJAX技术通过json格式传输数据的网页。
5.通过网页自动化工具，对网页数据进行自动化提取。

二、数据爬取

1.引入所需的库

源代码：

import requests
from lxml import etree
import pandas as pd

本次项目首先导入requests 库来获取网页内容，导入 lxml 库来解析网页内容，导入 pandas 库来创建表格并将数据存入Excel文件中。

2.网页解析

源代码：

# 定义函数用来爬取网站的课程信息
def get_lzzy_dzxx():
    # 初始化结果列表，并添加列名
    result=[['序号','课程链接','课程名称','所属院系','负责人','点击量','创建日期']]
    # 循环访问网站的每一页
    for i in range(65):
        # 构造网站的URL
        url = f'http: