day06

回顾

什么是文件

操作系统提供的虚拟单位

文件打开的步骤

  1. 获得路径 file_path
  2. 打开文件 open
  3. 读取/修改文件
  4. 保存
  5. 关闭

打开文件的3个模式和2种方式

  1. ‘r’ 只读不可写
  2. 'w' 只写不可读(清空后再写)
  3. 'a' 只写不可读(追加)
  4. t模式(文本)
  5. b模式 (二进制)

with管理上下文

with open('文件名','模式')as f:
    f.read()

爬虫原理

通过浏览器发送请求获数据;通过requests模拟浏览器发送请求拿到内容

爬虫流程

  1. 发送请求(获得url)
  2. 获取内容
  3. 解析内容获得需要的内容

request模块的使用

import request
res=requests(
        url=''
)
#文本
res.text 
#二进制
res.content

re模块

re.s 全局搜索
re.findall 从内容中筛选所需要的内容
.*? 贪婪匹配  需要什么东西就把什么东西(.*?)

今日所学

if判断

单分支结构
if 条件:
    print(满足条件怎样怎样)

双分支结构
if 条件:
    print(满足条件怎样怎样)
else:
    print(不满足条件怎样怎样)
    
多分支结构
if 条件:
    print('条件成立干嘛干嘛')  # 条件成立才会执行该段代码,不成立不执行该段代码
elif 条件:
    print('if条件不成立走这条')
elif 条件:
    ...
else:
    print('条件不成立干嘛干嘛)# 条件不成立才会执行该段代码,成立不执行该段代码

for循环

循环:重复做一件事

range()方法:

​ print(list(range(10)))

默认从0开始 输出0,1,2,3,4,5,6,7,8,9 顾头不顾尾

for循环嵌套:

内部循环全部走完,才会走一次外层循环。外层循环走一次,内层循环都会重置

continue

跳出本次循环,不执行下面的代码,直接开始下一次循环

break

提前中断循环,跳出本层循环

爬虫三部曲

  1. 发送请求
  2. 解析数据
  3. 保存数据

爬虫精髓

  1. 分析网站的通信流程
  2. 分析查找数据从何而来
  3. 分析目标网站的反爬策略
  4. 根据目标网站的反爬策略编写攻击手段,获取数据

爬取豆瓣top250电影信息:

分析目标网站的异步氢气返回的数据(接口)

json:

是一种第三方的数据格式

json.dumps() #把python数据格式转换成json数据格式

json.loads() #把json数据格式转换成python数据格式

转载于:https://www.cnblogs.com/maqiaobin/p/11425832.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值