python程序设计期末作业_Python高级应用程序设计任务期末作业

本文介绍了使用Python实现一个面向主题的网络爬虫,专注于爬取网易云音乐前十页的说唱类型歌单,包括歌单名称、播放量、链接和用户名称。文章详细阐述了爬虫的设计方案、页面结构特征分析、爬虫程序的各个部分,以及数据清洗、分析和可视化的步骤。最后,从数据中得出了一些结论,并总结了本次程序设计任务的体验。
摘要由CSDN通过智能技术生成

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序,并完成以下内容:

(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台)

一、主题式网络爬虫设计方案(15分)

1.主题式网络爬虫名称

爬取网易云音乐歌单

2.主题式网络爬虫爬取的内容与数据特征分析

爬取网易云音乐歌单前十页歌单,说唱类型的歌单名称、歌单播放量、歌单链接、用户名称。

分析歌单播放量和歌单标题关键词

3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)

实现思路:使用单线程爬取,初始化信息,设置请求头部信息,获取网页资源,使用etree进行网页解析,爬取多页时刷新offset,将爬取数据保存到csv文件中。

难点:使用的翻页形式为URL的limit和offset参数,发送的get请求时froms和url的参数要一至。

二、主题页面的结构特征分析(15分)

1.主题页面的结构特

1790987-20191220220749502-767646589.png

2.Htmls页面解析

1790987-20191220223219399-1631181642.png

1790987-20191220223617497-1566574483.png

3.节点(标签)查找方法与遍历方法

(必要时画出节点树结构)

1790987-20191220235544154-1965548999.png

三、网络爬虫程序设计(60分)

爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后面提供输出结果的截图。

1.数据爬取与采集

from urllib import parse

from lxml import etree

from urllib3 import disable_warnings

import requests

import csv

class Wangyiyun(object):

def __init__(self, **kwargs):

# 歌单的歌曲风格

self.t

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值