《python语言程序设计基础》—— 第6章

最新推荐文章于 2022-10-01 18:07:04 发布

dhsjjwj

最新推荐文章于 2022-10-01 18:07:04 发布

阅读量972

点赞数 1

分类专栏： python学习

本文链接：https://blog.csdn.net/qq_43887432/article/details/108515056

版权

python学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

组合数据类型

根据数据之间的关系，组合数据类型可以分为3类：序列类型（元素之间存在先后关系，通过序号访问，元素之间可以是相通的）、集合类型（元素无序，且相同元素在集合中唯一存在）、映射类型（即键值对）。
在这里插入图片描述

元组：生成元组只需要使用逗号将元素隔离开即可，也可以增加圆括号，但是只要语义不混淆，括号不是必须的。
集合:该概念和数学中集合概念相同。集合中的元素必须是固定数据类型，比如：整数、浮点数、字符串、元组等。但是列表、字典、集合类型都是可变数据类型，不能作为集合的元素。（Python编译器界定固定数据类型只要考察类型是否能够进行哈希运算。能够进行哈希运算的类型都可以作为集合的元素）。

在这里插入图片描述

集合类型主要用于三种场景：成员关系测试、元素去重、删除数据项。
列表：
可以使用list（）将元组或者字符串（字符串中每个字符编程列表中的一个元素）转换成列表。也可以使用list()函数直接返回一个空列表。
列表必须通过显式的赋值才可以生成，只将一个列表赋值给另一个列表不会生成新的列表对象。例如，ls是一个类表，lt = ls之后生成了对列表ls的一个新的引用，均指向相通的内存位置。
字典:
虽然集合类型也可以使用{}表示，但是直接使用大括号生成一个空的字典，而不是集合，生成空集合使用函数set()。
字典类型中的键，需要使用不可变类型的数据。

jieba库

这个库的名字挺有趣！
jieba是Python中一个重要的第三方中文分词函数库。

jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能。
jieba库支持3中分词模式：精确模式，将句子最精确地切开，适合文本分析（输出的分词能够完整并且不多余的组成原始文本）；全模式，把句子中所有可以成词的词语都扫描出来，冗余性大，速度非常快，但是不能消除歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

import jieba
jieba.cut('结巴库学习')  #jieba.cut()是精确模式，返回一个可以迭代的数据类型
print(type(jieba.cut('结巴库学习')))  ##运行结果是 <class 'generator'>
jieba.lcut() ##精确模式，返回一个列表类型，建议使用
jieba.cut('结巴库学习', cut_all=True) #全模式，输出文本s中所有可能的单词
#全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能消除歧义
jieba.lcut('字符串', cut_all=True) ##全模式，返回一个列表类型，建议使用
jieba.lcut_for_search('字符串') ##搜索引擎模式，返回一个列表类型，建议使用
jieba.add_word('单词') ##向分词字典中增加新词

##也就是建议使用的是lcut及其相关衍生

dhsjjwj

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《python语言程序设计基础》—— 第6章

组合数据类型根据数据之间的关系，组合数据类型可以分为3类：序列类型（元素之间存在先后关系，通过序号访问，元素之间可以是相通的）、集合类型（元素无序，且相同元素在集合中唯一存在）、映射类型（即键值对）。元组：生成元组只需要使用逗号将元素隔离开即可，也可以增加圆括号，但是只要语义不混淆，括号不是必须的。集合:该概念和数学中集合概念相同。集合中的元素必须是固定数据类型，比如：整数、浮点数、字符串、元组等。但是列表、字典、集合类型都是可变数据类型，不能作为集合的元素。（Python编译器界定固定数据类型
复制链接

扫一扫

专栏目录