爬虫学习1

最新推荐文章于 2024-07-21 10:17:51 发布

追梦女孩ii

最新推荐文章于 2024-07-21 10:17:51 发布

阅读量698

点赞数 6

分类专栏：爬虫文章标签： javascript 前端 html numpy 数据分析

本文链接：https://blog.csdn.net/m0_61566562/article/details/140108512

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

import requests  # 爬虫 爬数据
from urllib import request  # 下载图片

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}

# 1.数据要么在网页源码 html
# 2. 数据要么在接口里面(检查=>网络=>找接口url)
url = "https://www.douyu.com/gapi/rkc/directory/mixList/2_1/3"

# 开始爬虫

res = requests.get(url, headers=headers)

print(type(res.text))  # <class 'str'>
# print(res.text)

# json解析:  字符串 ==> 字典
result = res.json()
print(type(result))    # <class 'dict'>

# 获取所有主播的房间名 rn
zhubo_list = result['date']['rl']
# 遍历得到每一个主播的信息
for zhubo in zhubo_list:
    rn = zhubo['rn'])  # 房间名
    nn = zhubo['nn']   # 昵称
    rs1 = zhubo['rs1'] # 图片url
    print(rn, nn, rs1)

    # 下载图片:下载到douyu文件夹中（需提前创建doouyu文件夹）
    # request.urlretrieve(rs1, f'douyu/{nn}.png')


# 复习字典
p = {"name": "ikun", "age": 26}
print(p['name'])
# 复习列表
l = [1, 2, 3]
for n in l:
    print(n)
# 复习列表+字典嵌套样式
p_list = [{"name": "ikun", "age": 18},
          {"name": "ikun1",  "age": 8},
          {"name": "ikun2", "age": 35},]
for p in p_list:
    print(p['name'], p['age'])

import requests  # 爬虫 爬数据
from urllib import request  # 下载图片

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}

# 1.数据要么在网页源码 html
# 2. 数据要么在接口里面(检查=>网络=>找接口url)
url = "https://www.douyu.com/gapi/rkc/directory/mixList/2_1/3"

# 开始爬虫

res = requests.get(url, headers=headers)

print(type(res.text))  # <class 'str'>
# print(res.text)

# json解析:  字符串 ==> 字典
result = res.json()
print(type(result))    # <class 'dict'>

# 获取所有主播的房间名 rn
zhubo_list = result['date']['rl']
# 遍历得到每一个主播的信息
for zhubo in zhubo_list:
    rn = zhubo['rn'])  # 房间名
    nn = zhubo['nn']   # 昵称
    rs1 = zhubo['rs1'] # 图片url
    print(rn, nn, rs1)

    # 下载图片:下载到douyu文件夹中（需提前创建doouyu文件夹）
    # request.urlretrieve(rs1, f'douyu/{nn}.png')


# 复习字典
p = {"name": "ikun", "age": 26}
print(p['name'])
# 复习列表
l = [1, 2, 3]
for n in l:
    print(n)
# 复习列表+字典嵌套样式
p_list = [{"name": "ikun", "age": 18},
          {"name": "ikun1",  "age": 8},
          {"name": "ikun2", "age": 35},]
for p in p_list:
    print(p['name'], p['age'])

追梦女孩ii

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习1

下载图片:下载到douyu文件夹中（需提前创建doouyu文件夹）from urllib import request # 下载图片。# 2. 数据要么在接口里面(检查=>网络=>找接口url)rs1 = zhubo['rs1'] # 图片url。rn = zhubo['rn']) # 房间名。nn = zhubo['nn'] # 昵称。import requests # 爬虫爬数据。# json解析: 字符串 ==> 字典。# 获取所有主播的房间名 rn。# 复习列表+字典嵌套样式。
复制链接

扫一扫