Python课程内容回顾

最新推荐文章于 2024-09-14 19:55:48 发布

午觉千万别睡过

最新推荐文章于 2024-09-14 19:55:48 发布

阅读量1k

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/ailaohuyou211/article/details/124438561

版权

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本次Python课程介绍了如何使用爬虫技术抓取百度小说《西游记》的内容和网易云音乐热歌排行榜的歌曲。通过requests库发送HTTP请求，解析HTML并利用JSON处理数据，成功下载了小说章节和音乐文件。同时，讲解了爬虫判断数据位置的方法，以及在爬取过程中防止服务器过载的策略。

摘要由CSDN通过智能技术生成

Python课程内容回顾

今天Python实训课主要讲了爬虫的相关操作，主要是爬取百度小说西游记的内容和爬取网易云热歌排行榜的音乐：

爬取百度小说西游记

# -*- codeing = utf-8 -*-
# @Time : 2022/4/25 14:38
# @Author : 刘相圳
# @File : model1.py
# @Software : PyCharm
# --- 模拟浏览器向服务器发送请求
'''
软工实训课内容
'''
# 导入该库
import requests
import time
# 1.缺确定待访问网站的url
url = "http://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%224306063500%22}"
# 2.向目标服务器发送请求
resp1 = requests.get(url)
# 3.接收服务器返回的请求资源
# .text  把返回的内容变成字符串
print(resp1)
data1 = resp1.json() # 将返回的内容变成字典
print(data1)
print(type(data1))
titleList = data1["data"]["novel"]["items"]
print(titleList)
for x in titleList:
    url1 = "http://dushu.baidu.com/api/pc/getChapterContent?data={%22book_id%22:%224306063500%22,%22cid%22:%224306063500|"+x["cid"]+"%22,%22need_bookinfo%22:1}"
    time.sleep(1) # 添加休眠时间，防止短时间对服务器访问过于频繁，被服务器鉴定为爬虫程序(防止小型服务器崩溃)
    # print(url1)
    resp2 = requests.get(url1)
    data2 = resp2.json()
    text1 = data2["data"]["novel"]["content"]
    # print(data2)
    print(text1)
    path = "D:\\Desktop\\西游记\\"+x["title"]+".txt"
    with open(path,'w',encoding='utf8') as f:
        f.write(text1)
    print("================",x["title"]+"下载完成！====================")

爬取网易云音乐热歌榜

# -*- codeing = utf-8 -*-
# @Time : 2022/4/25 16:31
# @Author : 刘相圳
# @File : model2.py
# @Software : PyCharm

import requests
from lxml import etree
import time
url = "https://music.163.com/discover/toplist?id=3778678" # 去掉#号  网易云的防爬措施
resp1 = requests.get(url)
body = resp1.text   # print(body)
html = etree.HTML(body)
data1 = html.xpath("//ul[@class='f-hide']/li/a/@href") # 用于解析html中的数据 歌曲id
data2 = html.xpath("//ul[@class='f-hide']/li/a/text()") # 歌名
for i in range(len(data1)):
    url1 = "https://link.hhtjim.com/163/"+data1[i].split("=")[1]+".mp3"
    time.sleep(1)
    # print(url1)
    # print(data2[i]+"---->"+data1[i])
    resp2 = requests.get(url1)
    # print(resp2)
    data3 = resp2.content
    # print(data3)
    path = "D:\\Desktop\\music\\"+data2[i]+".mp3"
    with open(path,"wb") as f:
        f.write(data3)
    print("=============",data2[i]+"下载完成========")