6.1 集合类型和操作
集合的定义:
①集合中的元素是不可更改数据类型(整数、浮点数、复数、字符串、元组)
②集合中每个元素唯一,不存在相同元素(类似求交集)
③集合元素之间无序
④建立集合类型用{…}或set(),建立空集合必须使用set()
⑤集合用{}表示,中间用逗号隔开
集合操作符:
①集合间操作:可以赋值给新的变量
②关系操作符:S <=/</>=/> T
③增强操作符:修改原有的集合
集合处理方法:十个
虽然while是死循环,但是最终的空集合能被except捕捉到,因此可以退出
集合的应用场景
①包含关系的比较
②数据去重 :将其他类型用set()变成集合,自动去重
6.2 序列类型及操作(字符串、元组和列表)
通用操作符:
通用函数和方法:
元组
列表:
如果只是将列表用=赋值给一个新变量,则没有创建新的列表。只能使用第二种方法来创建列表
- 列表独有的函数和方法:
序列的应用场景:
①元素遍历:
②数据保护:多人协同时,程序间的接口利用元组不可更改的特点可达到数据保护的目的
6.3 基本统计值
6.4 字典类型及操作
字典是映射的体现
+键值对的集合是字典,键值对间是无需的
采用**{}或dict()**创建
字典的函数和方法:
**字典应用场景:**元素遍历
6.5 jieba库的使用
jieba——中文分词第三方库
6.6 文本词频统计
对于英文文本:对各种字符进行噪音处理,对大小写字母进行归一化
对于中文文本:首先用jieba进行中文分词