回顾
上节课的回顾
数据类型
对事物的状态 分类
数字类型:
整型 int:
定义方式:
x = 10 x = int(10) x = int('10')
使用方法:+-*/ % // **
浮点型 float:
定义方式:
x = 10.1 x = float(10.1) x = float(10) x = float('10.1')
使用方法:+-*/ % // **
字符串 str:
定义方式:
name='mqb'
使用方法:索引取值/索引切片
startswith()以。。开头
endswith()以。。结尾
join()以字符串内的内容拼接列表内的元素
列表list
定义方式:【】内以逗号隔开多个元素(任意数据类型)
使用方法:索引取值、索引切片
append 往后加值
del 删除值
字典 dict
定义方式:{}内以逗号隔开多个键值对 key(具有描述意义):value(任意数据类型)
使用方法:按key取值、按key修改值、按key增加值、del按key删除值
jieba模块
用来分割一段内容
wordcloud模块
生成词云图
今日所学
什么是文件
文件就是操作系统提供的虚拟单位,用来存储信息
什么是文本
.txt/.py/.xml/.word等存储的是文字
如何通过文本编辑器去控制txt文件
- 找到文件路径
- 通过记事本打开文件
- 读取/修改文件
- 保存
- 关闭文件
打开文件的三种模式
r 只读不可写
w 只写不可读(先清空再写)
a 只读不可写(直接追加在文本末尾)
t和b模式
b:gbk/utf8只针对文本,所以音频文件需要通过rb模式打开----》读取二进制,b不能单独使用,要搭配r/w/a
t:针对文本文件,t不能单独使用,要搭配r/w/a
with
with可以自动关闭文本文件
爬虫课程
requests库
selenium库
什么是爬虫?
爬虫指的是爬取数据
什么是数据?
互联网中能看到的都是数据。
爬虫的比喻
把数据比喻成一座宝藏,爬虫其实就是在挖取宝藏。
爬虫的原理
- 发送请求---》requests,selenium
- 获取数据---》无需自己做
- 解析获取有价值的数据---》re正则模块(内置)
- 保存数据---》文件处理