python数据分析实例:python抓取课工厂网站数据和分析

本文使用Python抓取并分析课工场网站的课程数据,涵盖课程类型、付费情况、学习人次等。通过requests、BeautifulSoup等库获取数据,用pandas、matplotlib和seaborn进行数据处理和可视化。分析结果显示,付费人次占学习人次的70%,课程主要集中在编程和技术领域,尤其Java和Web开发,同时职场办公和个人管理课程也有较大需求。网站有机会在这些领域增加更多内容以提高转化率。
摘要由CSDN通过智能技术生成

在线教育网站学习,是很多人利于闲余时间进行充电的一种选择。本篇文章利用python抓取在线教育网站课工场课程页面的数据,进行简要分析。

通过使用requests库对课工场课程列表页进行抓取。

通过BeautifulSoup对课工场课程列表页面进行解析,并从中获课程名称,课程类型,付费类型,课程学习人次的数据。

最后再利用python的pandas,matplotlib,seaborn模块对数据进行处理和分析

0,工作环境搭建

环境:

win10+Anaconda +jupyter Notebook

模块:

爬虫和网页解析相关的模块:

requests,BeautifulSoup,time

数据分析模块:

Numpy,pandas

画图模块:

matplotlib,seaborn

1,构建爬虫,抓取需要的信息

构造爬虫是需要注意

  1. 开始抓取前先观察下目标页面或网站的结构,其中比较重要的是URL的结构
  2. 在抓取网页时,为了尽量伪装成正常的请求,我们需要在http请求中设置一个头部信息,否则很容易被封。头部信息网上有很多现成的。并手动设置每次请求的时间间隔。

A,构造爬虫

import requests,time
from bs4 import BeautifulSoup

url = 'http://www.kgc.cn/list/230-'+str(i)+'-6-9-9-0.shtml'
headers={
   
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.8',
'Connection':'keep-alive',
'Referer':'http://www.baidu.com/link?url=
_andhfsjjjKRgEWkj7i9cFmYYGsisrnm2A
-TN3XZDQXxvGsM9k9ZZSnikW2Yds4s&
wd=&eqid=c3435a7d00006bd600000003582bfd1f'
}
    
for i in range(1,64):
    if i==1:
        url = 'http://www.kgc.cn/list/230-'+str(i)+'-6-9-9-0.shtml'
        r = requests.get(url=url,headers=headers)
        html = r.text
    else:
        url = 'http://www.kgc.cn/list/230-'+str(i)+'-6-9-9-0.shtml'
        r = requests.get(url=url,headers=headers)
        html2 = r.text
        html = html + html2
    time.sleep(0.8)

B,解析页面,提取信息

kgc = BeautifulSoup(html,"html.parser")

# 提取课程名称
name= kgc.find_all("a",attrs={
   "class":"yui3-u course-title-a"})

c_na
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值