《python语言程序设计基础》—— 第6章

组合数据类型

根据数据之间的关系,组合数据类型可以分为3类:序列类型(元素之间存在先后关系,通过序号访问,元素之间可以是相通的)、集合类型(元素无序,且相同元素在集合中唯一存在)、映射类型(即键值对)。
在这里插入图片描述
在这里插入图片描述

  • 元组:生成元组只需要使用逗号将元素隔离开即可,也可以增加圆括号,但是只要语义不混淆,括号不是必须的。
  • 集合:该概念和数学中集合概念相同。集合中的元素必须是固定数据类型,比如:整数、浮点数、字符串、元组等。但是列表、字典、集合类型都是可变数据类型,不能作为集合的元素。(Python编译器界定固定数据类型只要考察类型是否能够进行哈希运算。能够进行哈希运算的类型都可以作为集合的元素)。

在这里插入图片描述在这里插入图片描述

  • 集合类型主要用于三种场景:成员关系测试、元素去重、删除数据项。
  • 列表
    可以使用list()将元组或者字符串(字符串中每个字符编程列表中的一个元素)转换成列表。也可以使用list()函数直接返回一个空列表。
    列表必须通过显式的赋值才可以生成,只将一个列表赋值给另一个列表不会生成新的列表对象。例如,ls是一个类表,lt = ls之后生成了对列表ls的一个新的引用,均指向相通的内存位置。
    在这里插入图片描述
  • 字典:
    虽然集合类型也可以使用{}表示,但是直接使用大括号生成一个空的字典,而不是集合,生成空集合使用函数set()。
    字典类型中的键,需要使用不可变类型的数据。
    在这里插入图片描述

jieba库

这个库的名字挺有趣!
jieba是Python中一个重要的第三方中文分词函数库。

jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。
jieba库支持3中分词模式:精确模式,将句子最精确地切开,适合文本分析(输出的分词能够完整并且不多余的组成原始文本);全模式,把句子中所有可以成词的词语都扫描出来,冗余性大,速度非常快,但是不能消除歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

import jieba
jieba.cut('结巴库学习')  #jieba.cut()是精确模式,返回一个可以迭代的数据类型
print(type(jieba.cut('结巴库学习')))  ##运行结果是 <class 'generator'>
jieba.lcut() ##精确模式,返回一个列表类型,建议使用
jieba.cut('结巴库学习', cut_all=True) #全模式,输出文本s中所有可能的单词
#全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能消除歧义
jieba.lcut('字符串', cut_all=True) ##全模式,返回一个列表类型,建议使用
jieba.lcut_for_search('字符串') ##搜索引擎模式,返回一个列表类型,建议使用
jieba.add_word('单词') ##向分词字典中增加新词

##也就是建议使用的是lcut及其相关衍生

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值