【数据可视化】通过使用网络爬虫对数据爬取并进行可视化分析

本文介绍了使用Python网络爬虫爬取柳州职业技术学院电子信息工程学院超星课程中心的数据,对历年课程创建数、点击量、月创建量进行分析,并制作词云图。通过数据可视化揭示了学院在线学习资源的发展趋势和学生需求变化。
摘要由CSDN通过智能技术生成


项目介绍

  本次项目所爬取的网页为柳州职业技术学院电子信息工程学院的超星学习通课程中心。在该网页中可以查看到电子信息工程学院历年的超星课程创建情况,还可以进入到课程界面查看相应的教学资源。

  在该网页中,详细记录了课程序号、课程名称、课程链接、所属院系、课程负责人、课程点击量、课程创建时间等信息,本次项目采用爬虫针对这些网页信息进行获取,数据清理和数据分析,进行简单的数据可视化处理,挖掘出数据的价值,并在一定的条件下对数据进行应用。

项目介绍


一、Python网络爬虫介绍

  在学习python网络爬虫中,我们常用的对网页数据进行爬取的方法主要有以下几种。

  1.使用正则表达式对网页数据进行提取。
  2.使用xpath查询网页节点,提取出网页有用的信息。
  3.使用Beautiful Soup解析和提取网页中信息。
  4.使用json,解析使用AJAX技术通过json格式传输数据的网页。
  5.通过网页自动化工具,对网页数据进行自动化提取。


二、数据爬取

1.引入所需的库

源代码:

import requests
from lxml import etree
import pandas as pd

  本次项目首先导入requests 库来获取网页内容,导入 lxml 库来解析网页内容,导入 pandas 库来创建表格并将数据存入Excel文件中。

2.网页解析

源代码:

# 定义函数用来爬取网站的课程信息
def get_lzzy_dzxx():
    # 初始化结果列表,并添加列名
    result=[['序号','课程链接','课程名称','所属院系','负责人','点击量','创建日期']]
    # 循环访问网站的每一页
    for i in range(65):
        # 构造网站的URL
        url = f'http:
  • 6
    点赞
  • 78
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值