day 16 爬虫

day 16 爬虫

1、认识爬虫

爬虫:用程序收集网络数据
抓包工具:拿到接口

步骤:
确定目标数据
找目标数据
获取网络数据:request、selenium
解析数据:正则表达式(难、效率高)、基于css选择器的解析器(bs4)(编程难度最低)、基于xpath的解析器(xml)(难度其次)
保存数据:

补充:

python环境:
1、系统环境:安装pyton的时候自动提供python环境
2、程序员自己创建的虚拟环境

环境作用:提供python解释器、容器(第三方库)

只有唯一环境缺陷:容器中第三方库加载过多,版本更新后版本不兼容
虚拟环境:有多组解释器+容器

开发:一个项目一个虚拟环节,并将虚拟环境放在项目中:location/venv
学习:一类项目一个虚拟环境

在设置-项目-解释器里可以配置环境


"""
requests:设置-项目-解释器-搜索requests,默认安装最新版本


import requests


作用1:爬网页数据
1.对网页发送请求数据
response = requests.get('网址')

2.设置文本内容的编码方式(如果打印结果乱码则需要设置编码方式)
response.encoding = '网页编码方式'    网页编码方式:meta-...-charset=utf-8

3.获取网页内容
result = response.txt
print(resuult)

作用2:请求接口数据
1.对接口发送请求
reponse = requests.get('接口')

2. 对请求结果进行json解析(json解析就是将json数据转换成对应的python数据)
result = response.json()
dor x in result['hero']:
    print(x['name'], x['goldPrice'])

补充:json数据:json是一种通用的文本数据格式(xml数据格式也是通用的文本数据格式)
1. 认识json
要求:有且只有一个数据,并且这个数据是json支持的类型的数据。

json支持的数据类型格式:
1)数字    -   和数学一样
2)字符串   -   只能使用双引号
3)布尔     -   true、false
4)空值        -   null
5)数组(列表)    -   [数据1, 数据2, 数据3]
6)字典        -   {键1: 值1, 键2: 值2, ...} (字典的键只能是字符串,值可以是任何类型的数据)

2. Python与json的相互转换
python中的json模块中提供了处理json数据的相关函数
import json

1)将json数据转换成对应的Python数据
json字符串  -> python字符串
json数字   ->  python数字
null      -> None
true、false -> True、False
json.loads(json格式字符串):将指定的json数据转换成对应的python
json格式字符串:字符串是一个合法的json数据的字符串

result = json.loads('""')
print(result, type(result))

result = json.load('100')
print(result, type(result))

result = json.load('null')
print(result)

result = json.loads('[10, "abd", true, null]')
print(result, type(result))

2)将python数据转换成对应的json格式数据
json.dump(python数据):将python数据转换成对应的json格式字符串

json.dumps(100)     
'100'

json.dumps('abc')   
'"abc"'

json.dumps(True)    
'true'

json.dumps({'name':'张三', 'age':18, '已婚':True, 10:20})    
{"name":"张三", "age":18, "已婚":True, "10":20}

作用3:下载图片、视频、音频等
1.对图片地址、视频地址或者音频地址发送请求
response = requests.get('图片地址或者音频地址')

2.获取请求结果(视频 、音频或者图片数据)
result = responese.content
print(type(result))         
class 'bytes'

3.将图片、视频或者图片的数据保存到文件中 
with open('files/a.jpg', 'wb') as f:
    f.write(result)

"""

2、反爬


"""
1、对网页发送请求

2、伪装成浏览器
谷歌浏器-控制台-Network-All-网页名-Headers-User-Agent:

构建动态模板:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

3、获取网页内容


"""
import requests

from re import findall
#1
#2
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
response = requests.get('https://movie.douban.com/top250', headers=headers)


"""
print(response)

状态码
418(开玩笑)
404(空)
200(成功)
"""

#3(控制台查找:ctrl+f)
# print(response.text)
#所有电影中文名称
names = findall(r'<img width="100" alt="(\w+)"', response.text)
print(names)

#所有电影的评分
grades = findall(r'<span class="rating_num" property="v:average">(\d+[.]?\d*)</span>', response.text)
print(grades)

result = map(lambda i1, i2: {'title': i1, 'grades': i2}, names, grades)
print(list(result))

3、练习:将所有英雄选择的音频下载下来,下载的时候音频文件的名字用英雄名称


# 英雄联盟所有英雄信息接口:https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js

import requests

def get_all_audio_url():
    response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
    result = response.json()
    urls = []
    for x in result['hero']:
        url = x['selectAudio']
        name = x['title']
        urls.append((url, name))
    return urls


def download_audio(hero):
    url = hero[0]
    name = hero[1]
    response = requests.get(url)
    result = response.content
    with open(f'files/{name}.ogg', 'wb') as f:
        f.write(result)
    print(f'========{name}音频下载完成===========')


if __name__ == '__main__':
    for x in get_all_audio_url():
        download_audio(x)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
尚硅谷是一个提供在线教育的学习平台,他们提供了Python爬虫的相关教学课程。通过学习这些课程,你可以获得Python基础知识、前端基础知识、计算机网络基础以及爬虫原理等方面的知识。Python基础教学可以参考B站尚硅谷的教学视频,这些视频可以帮助你建立起对Python的基本认识。而前端基础知识包括HTML、CSS和JavaScript的学习,它们分别代表网页的骨架、肌肉和皮肤,只有结合起来才能形成一个完整的网页。此外,你还可以通过学习计算机网络基础来理解HTTP和HTTPS、URL以及网页请求等内容。爬虫原理也是其中的一部分内容,它可以帮助你了解如何通过爬虫程序获取网页数据。所以,如果你对Python爬虫感兴趣,尚硅谷提供的Python爬虫课程可能是一个不错的选择。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [零基础自学python爬虫笔记Day1——爬虫的基本原理](https://blog.csdn.net/Seyhang/article/details/119420052)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【Python爬虫】urllib库——尚硅谷](https://blog.csdn.net/qq_48108092/article/details/126097408)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百事不可乐BOOM

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值