python组合数据类型（集合，序列，字典）以及jieba库的介绍

最新推荐文章于 2022-11-05 23:29:23 发布

肖某人木的铭文

最新推荐文章于 2022-11-05 23:29:23 发布

阅读量1.9k

点赞数 4

分类专栏：课程笔记类文章标签：列表 python 数据结构

本文链接：https://blog.csdn.net/qq_41151593/article/details/104578638

版权

课程笔记类专栏收录该内容

15 篇文章 1 订阅

订阅专栏

一、集合类型及操作

1、集合类型定义

-集合类型与数学中的集合概念一致
-集合元素之间无序，每个元素唯一，不存在相同元素
-集合元素不可更改，不能是可变数据类型

-集合用大括号{}表示，元素用逗号分隔
-建立集合类型用{}或set()
-建立空集合类型，必须使用set()

举例

A = {"python",123,("python",123)}
print(A)
B = set("pypy123")#使用set()建立  元素唯一  无序
print(B)

输出

{'python', 123, ('python', 123)}
{'3', 'y', '2', 'p', '1'}

2、集合间操作

1）集合操作符

操作符及应用	描述
S\|T	返回一个新的集合，包括在集合S和T中的所有元素
S-T	返回一个新的集合，包括在集合S但不在T中的元素
S&T	返回一个新的集合，包括同时在集合S和T中的元素
S^T	返回一个新的集合，包括在集合S和T中的非相同元素
S<=T或 S < T	返回True/False,判断S和T的子集关系
S>=T或 S > T	返回True/False,判断S和T的包含关系

2)4个增强操作符: S|=T S-=T S&=T S^=T

举例

A = {"p","y",123}
B = set("pypy123")
print(A - B)

输出

{123}

3、集合处理方法

操作函数或方法	描述
S.add(X)	如果x不在集合S中，将x增加到S
S.discard()	移除S中元素x，如果x不在集合S中，不报错
S.remove()	移除S中元素x，如果x不在集合S中，产生KeyError异常
S.clear()	移除S中所有元素
S.pop()	随机返回S的一个元素，更新s，若S为空，产生KeyError异常
S.copy()	返回集合S的一个副本
len(S)	返回集合S的元素个数
x in S	返回True\False
x not in S	返回True\False
set(x)	将其它类型变量转化为集合类型

4、集合的应用场景

-包含关系比较
-数据去重

数据去重举例

ls =["p","p","y","y",123]
s = set(ls)  #去重
lt = list(s)
print(lt)

输出

['y', 123, 'p']

二、序列类型及操作

1、序列类型的定义

-序列是一维元素向量，元素类型可以不同
-类似数学元素蓄力
-元素间由序号引导，通过下标访问序列的特定元素
-序列类型是一个基类类型
    -字符串类型
    -元组类型
    -列表类型

2、序列类型通用操作符

操作符及应用	描述
x in s	如果x是序列S的元素，返回True,否则返回False
x not in s	同上类似
S + T	连接两个序列S和T
Sn 或 nS	将序列S复制n次
S[i]	索引，返回S中的第i个元素，i是序列的序号
S[i:j]或S[i:j:k]	切片，返回序列S中第i到j以k为步长的元素序列

3、序列类型通用函数和方法

函数和方法	描述
len(S)	返回序列S的长度
min(S)或max(S)	返回序列S的最小或最大元素，需要S中元素可比较
S.index(x)或S.index(x,i,j)	返回序列S从i开始到j位置中第一次出现元素x的位置
S.count(x)	返回序列S中x出现的总次数

4、元组类型定义

-元组是一种序列，一旦创建就不能修改
-使用小括号()或tuple()创建，元素间用逗号分隔
-可以使用或不使用小括号

例如

#返回元组的情况
def func():
    return 1,2

5、列表类型定义

-列表是一种序列类型，创建后可以随意被修改
-使用方括号[]或list()创建，元素用逗号分隔
-列表中各元素类型可以不同，无长度限定
-使用[]或list()才是真正的创建了列表，如果仅仅只是使用赋值只是将一个列表付给了新的名字

例表类型操作函数和方法：

函数或方法	描述
ls[i] = x	替换列表ls第i元素为x
ls[i:j:k] = lt	用列表lt替换ls切片后对应的元素子列表
del ls[i]	删除列表ls中第i元素
del ls[i:j:k]	删除列表中第i到第j以k为步长的元素
ls += lt	更新列表ls，将列表lt元素增加到列表ls中
ls *= n	更新列表ls，其元素重复n次
ls.append(x)	在列表ls最后增加一个元素x
ls.clear()	删除列表中所有元素
ls.copy()	生成一个新的列表，赋值ls中所有元素
ls.insert(i,x)	在列表ls的第i位置增加X
ls.pop(i)	在列表ls中第i个位置元素取出并删除该元素
ls.remove(x)	将列表ls中出现的第一个元素x删除
sorted(ls)	对列表ls元素进行排序
les.sort(cmp=None, key=None, reverse=False)	cmp – 可选参数, 如果指定了该参数会使用该参数的方法进行排序;key – 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，指定可迭代对象中的一个元素来进行排序;reverse – 排序规则，reverse = True 降序， reverse = False 升序（默认）

5、列表功能举例

1、定义空列表lt
lt = []

2、向lt新增5个元素
lt += [1,2,3,4,5]

3、修改lt中的第2个元素
lt[2] = 6

4、向lt中第2个位置增加一个元素
lt.insert(2,7)

5、从lt中第1个位置删除一个元素
del lt[1]

6、删除lt中1-3位置元素
del lt[1:4]

7、判断lt中是否包含数字0
0 in lt

8、向lt新增数字0
lt.append(0)

9、返回数字0所咋lt中的索引
lt.index(0)

10、lt的长度
len(lt)

11、lt中最大元素
max(lt)

12、清空lt
lt.clear()

6、序列类型应用场景

-元组用于元素不改变的应用场景，更多用于固定搭配
-列表更加灵活，它是最常用的序列类型
-最主要作用：表示一组有序数据，进而操作它们。元素遍历

三、字典类型

1、字典类型定义

-映射是一种建（索引）和值（数据）的对应
-键值对：建是数据索引的扩展
-字典是键值对的集合，键值之间是无序的
-采用大括号{}和dict()创建，键值对用冒号：表示
-字典的一个元素是一对键值对

2、字典类型操作函数和方法

函数或方法	描述
del d[k]	删除字典的中键k对应的数据值
k in d	判断键k是否在字典d中，如果在返回True,否则False
d.keys()	返回字典d中所有的键的信息
d.value()	返回字典d中所有的值的信息
d.items()	返回字典d中所有的键值对信息
d.get(k,)	键k存在，则返回相应值，不在则返回default值
d.pop(k,)	键k存在，则取出相应值，不在则返回default值
d.popitem()	随机从字典d中取出一个键值对，以元组形式返回
d.clear()	删除所有键值对
len(d)	返回字典d中元素的个数

四、jieba库的使用

1、jieba库的概述

-jieba是优秀的中文分词第三方库，需要pip安装
-中文文本需要通过分词获取单个的词语
-jieba库提供三种分词模式，最简单只需掌握一个函数
-jiba分词依靠中文词库
    -利用一个中文词库，确定汉字之间的关联概率
    -汉字键概率大的组成词库，形成分词效果
    -除了分词，用户还可以添加自定义的词组

2、jieba库使用说明

-精确模式：把文本精确的切分开，不存在冗余单词
-全模式：把文本中所有可能的词语°扫描出来，有冗余
-收索引擎模式：在精确模式基础上，对长词再次切分

jieba库常用函数

函数	描述
jieba.lcut(S)	精确模式，返回一个列表的分词结果。举例 jieba.lcut(“中国是一个伟大的国际”)；输出：[‘中国’, ‘是’, ‘一个’, ‘伟大’, ‘国家’]
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型的分词结果，存在冗余。举例：ieba.lcut(“中国是一个伟大国家”,cut_all = True) ;输出：[‘中国’, ‘国是’, ‘一个’, ‘伟大’, ‘大国’, ‘国家’]
jieba.lcut_for_search(S)	收索引擎模式，返回一个列表类型的分词结果，存在冗余。举例：jieba.lcut_for_search(“中华人民共和国万岁”) ；输出：[‘中华’, ‘华人’, ‘人民’, ‘共和’, ‘共和国’, ‘中华人民共和国’, ‘万岁’]
jieba.add_word(w)	向分词词典增加新词w