计算机的分类及组合,第六章:组合数据类型

A、组合数据类型概述

计算机不仅对单个变量表示的数据进行处理,更多情况,计算机需要对一组数据进行批量处理。例:

给定一组单词{python, data, function, list, loop},计算并输出每个单词的长度;

给定一个学院学生信息,统计一下男女生比例;

一次实验产生了很多组数据,对这些大量数据进行分析。

组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易

根据数据之间的关系,组合数据类型可以分为三类:

序列类型、集合类型和映射类型。

序列类型是一个元素向量,元素之间存在先后关系,通过序号访问,元素之间不排他。

集合类型是一个元素集合,元素之间无序,相同元素在集合中唯一存在。

映射类型是“键-值”数据项的组合,每个元素是一个键值对,表示为(key, value)。

72ffa901a01cd95a0cc8e8c1e96dfff3.png

联系

B、集合类型和操作

集合类型与数学中集合的概念一致,即包含0个或多个数据项的无序组合。

集合中元素不可重复。

集合中,元素类型只能是固定数据类型,例如:整数、浮点数、字符串、元组等。

列表、字典和集合类型本身都是可变数据类型,不能作为集合的元素出现。

由于集合是无序组合,它没有索引和位置的概念,不能分片。

集合用大括号({})表示,元素间用,分隔。

集合中元素可以动态增加或删除。

建立集合类型: {} 和set()函数

建立空集合类型:必须使用set()

55f7e6a0ecb735b1158f958031027898.png

举例

由于集合元素是无序的,集合的打印效果与定义顺序可以不一致。

由于集合元素独一无二,使用集合类型能够过滤掉重复元素。

上述操作符表达了集合类型的4种基本操作:

交集(&)、并集(|)、差集(-)、补集(^),操作逻辑与数学定义相同

ac9966a65412898adbc24b86a474cf21.png

集合类型有10个操作符

575692a792abfaccf812eac0065ad95f.png

集合类型有10个操作符

集合类型的应用场景包含关系的比较

用集合数据表达这组数据,然后用其他元素与之比较

9298af3d1adaa440b7eba2f1f6335db1.png

关系的比较

数据去重(进行数据重复处理)

集合类型与其他类型最大的不同在于它不包含重复元素

71f90ab4878c0937b1417047733f0c3a.png

数据去重

C、序列类型和操作

1.序列类型

序列是具有先后关系的一组元素

序列是一维元素向量

元素可以相同(有位置信息)

元素类型可以不同

类似数学中的S0 , S1 ,…, Sn-1 , Sn

元素间由序号引导,通过下标访问序列中的特定元素

由于元素之间存在顺序关系,所以序列中可以存在相同数值但位置不同的元素。

序列类型支持成员关系操作符(in)、长度计算函数(len())、分片([]),元素本身也可以是序列类型。

序列类型是一个基类类型,Python语言中有很多数据类型都是序列类型:

str(字符串) :单一字符的有序组合

tuple(元组):包含0个或多个数据项的不可变序列类型。元组生成后是固定的,其中任何数据项不能替换或删除。

list(列表):一个可以修改数据项的序列类型,使用也最灵活。

774d15d67dbcb9fddbe3600afa7701dc.png

排序

2.序列处理函数及方法

7e722b63f440e4b8118db7e880793945.png

序列类型有7个通用的操作符

89eb4a0e82aded7386021c842ad2911d.png

操作符  举例

8080cc43b792451ab36b8c5c8f73e97c.png

序列类型有5个通用函数

注意:不同类不能比

D、元组类型和操作

元组(tuple)是序列类型中比较特殊的类型,因为它一旦创建就不能被修改。

创建:使用()或tuple()

元组中元素用,分隔。

可以使用或者不使用小括号

f045703b1f4fca614e27c6180d47d0fd.png

构成

1dcf5aea0e32399d7ac1fb93f83ccb34.png

举例1

bd1b482ea512cdce7acf57128c20b874.png

举例2

元组类型在表达固定数据项、函数多返回值、多变量同步赋值、循环遍历等情况下十分有用。

958bbf52c085a785f0e8ff51a8a1449f.png

举例

元组中元素不可变,除了序列类型的通用函数和方法,无特殊操作。

E、列表类型和操作

1.列表类型的概念

列表(list)是包含0个或多个对象引用的有序序列,属于序列类型。

与元组不同,列表的长度和内容都是可变的,可自由对列表中数据项进行增加、删除或替换。

列表没有长度限制,元素类型可以不同,使用非常灵活。

列表属于序列类型,所以列表也支持成员关系操作符(in)、长度计算函数(len())、分片([])。

列表可以同时使用正向递增序号和反向递减序号,可以采用标准的比较操作符(=、>)进行比较,列表的比较实际上是单个数据项的逐个比较。

列表用中括号([])表示,元素间用,分隔。

创建:使用[]或list()函数

list()函数可将元组或字符串转化成列表。直接使用list()函数会返回一个空列表。不会生成新的列表对象。

5811522c021ea1900499dec25a5b330a.png

举例

即:方括号[]真正创建与整数和字符串不同,列表要处理一组数据,因此列表必须通过显式的数据赋值才能生成,简单将一个列表赋值给另一个列表一个列表,赋值仅仅传递引用。

1beba417d0e8d2d85bc7fa1601b29ff0.png

举例

2.列表类型的操作

b25704ee126fdba3e873d329f65d18c2.png

列表类型的操作

ed590e137683d6dc763cc5e04c2351b9.png

举例

5c1600ff220e8a57eec011590b04a21c.png

举例

当使用一个列表改变另一个列表值时,Python不要求两个列表长度一样,但遵循“多增少减”的原则。

4fb7eca4602190ec205565473cf42a19.png

举例

0c5cf91029675805ae487c4dc9292eb3.png

列表类型的操作

23d30461bc360dd876decc38f1d30041.png

举例

与元组一样,列表可以通过for…in语句对其元素进行遍历,基本语法结构如下:

for    in :

语句块

944e005947063b7bf3659b2b24e6da4c.png

元素进行遍历

列表是一个十分灵活的数据结构,它具有处理任意长度、混合类型的能力,并提供了丰富的基础操作符和方法。当程序需要使用组合数据类型管理批量数据时,请尽量使用列表类型。

3.序列类型应用场景

元组用于元素不改变的应用场景,更多用于固定搭配场景

列表更加灵活,是最常用的序列类型

最主要的作用:表示一组有序数据,进而操作它们

数据保护:如果不希望数据被程序所修改,转换为元组类型

4.序列特点

序列是元素的有序组合

序列是基类,扩展类型包括:字符串、元组、和列表

元组用()或者tuple()创建,列表用[]或者list()创建

元组操作和序列操作基本相同

列表操作在序列操作基础上,增加了更多的灵活性

F、映射类型

映射类型是“键-值”数据项的组合,或者叫索引和数据的对应。-- 属性&数据的对应关系

每个元素是一个键值对,即元素是一个二元关系(key, value),元素之间是无序的。

9d9d57717431b57ed52789645c5bfb10.png

映射类型

在Python中,映射类型主要以字典(dict)体现。

bc29f45cf220be57ef59508f179571c7.png

字典

字典类型的计算

1.字典类型的基本概念

通过任意键信息查找一组数据中值信息的过程叫映射,Python语言中通过字典实现映射。

字典可以通过大括号({})和dict()建立,建立模式如下:

{:,… , :}

其中,键和值通过冒号连接,不同键值对通过逗号隔开。

f487e0e51968265adcbb9b394fbf1f2d.png

字典打印

字典打印出来的顺序与创建之初的顺序可能不同。

字典是集合类型的延续,各个元素并没有顺序之分。

字典是元素为键值对的集合

字典最主要的用法是查找与特定键相对应的值,通过索引符号来实现。

一般来说,字典中键值对的访问模式如下,采用中括号格式:       = []

字典中对某个键值的修改可以通过中括号的访问和赋值实现。

通过中括号([])可以增加新的元素

2a7f26a1554aa7b1782a7474b7c5e97e.png

举例

直接使用大括号({})可以创建一个空的字典,并通过中括号([])向其增加元素。

65fd7ce466e20de888540d3ecb15ec61.png

举例

2.字典类型的操作

78333e3206a0fce6ad3f73440772b31c.png

字典类型的操作

05175593a86f76db3ea88d3ac02ac820.png

举例

c32e6e8f6b0989f873f1f07ff9e9e576.png

字典类型的操作

0bba81ba49134317631ea3db23684021.png

举例

与其他组合类型一样,字典可以通过for…in语句对其元素进行遍历,基本语法结构如下:

for     in  :

语句块

5b5ed68b445d54e5fff62e3c71616aef.png

举例

3.字典类型的应用场景

字典的最主要应用场景:对映射的表达

映射无处不在,键值对无处不在

例如:统计数据出现的次数,数据是键,次数是值à(数据,出现次数)

最主要作用:表达键值对数据,进而操作它们

字典是实现键值对映射的数据结构,请理解如下基本原则:

字典类型使用{} 和 dict()创建

字典是一个键值对(key: value)的集合,该集合以键为索引,一个键信息只对应一个值信息;-- 1:1

字典中元素以键信息为索引访问(d[key]);

字典长度是可变的,可以通过对键信息赋值实现增加或修改键值对(d[key] = …)。

有一批操作方法和函数,最重要的是.get()

G、jieba库的使用

1.jieba库的概述

中文分词问题:中文单词之间没有分隔符

jieba是Python中一个重要的第三方中文分词函数库

7b7ead7317b0e0ad1de211f8bfcb18e5.png

举例

jieba库是第三方库,不是安装包自带,需要通过pip指令安装

使用cmd命令行

pip install jieba 或者 pip3 install jieba

2.jieba库的功能

分词原理:将待分词的内容与中文词库进行对比

功能:

分词

用户添加自定义的中文单词

三种分词模式:

精确模式:精确切分,完整且不多余地组成原始文本 – 最常用

全模式:把句子中所有可以成词的词语都扫描出来,但是冗余性最大

搜索引擎模式:首先执行精确模式,然后再对其中的长词进一步切分

fbcb83557cc3741eb69c26965a91909e.png

分词函数

96133754b59c77244af60ef4650546a0.png

函数

H、文本词频统计

英文:

单词分词简单

有大小写、标点符号等特殊符号        ––        文本的噪音处理

中文:

词语分词麻烦 –– jieba库

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值