jieba库及判断类型是否一致

最新推荐文章于 2022-08-23 18:22:04 发布

hn_nh

最新推荐文章于 2022-08-23 18:22:04 发布

阅读量270

点赞数

分类专栏：笔记文章标签：编程语言

本文链接：https://blog.csdn.net/hn_nh/article/details/106179573

版权

笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

jieba库

一个优秀的中文分词第三方库
有精确模式、全模式、搜索引擎模式

精确模式：把文本精确的切分开，不存在冗余单词

jieba.lcut
例：
jieba.lcut('中国是一个伟大的国家')
->>['中国', '是', '一个', '伟大', '的', '国家']

全模式：把文本所有可能的词语扫描出来，有冗余

例：
s = '中国是一个伟大的国家'
print(jieba.lcut(s, cut_all=True))
->>['中国', '国是', '一个', '伟大', '的', '国家']

搜索引擎模式：在精确的基础上，对长词再次进行切分

例：
s = '中华人民共和国是伟大的国家'
print(jieba.lcut_for_search(s))
->>['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的', '国家']

向词典增加新词

 jieba.add_word(w)
 例：
 jieba.add_word('蟒蛇语言')

判断类型是否一致

isinstance()
例子：
a=2
isinstance(a, str)		 a是否为字符串类型
->>False
isinstance(a, (str, int, list)) 	 a若为多种类型（元组表示）中的一种，则返回True
->>True

扩展：

map（function, iterable, …）
将第一个函数名应用到后面每一个参数上
注意iterable传的是一个可以迭代的对象，
还有在新的版本下，其默认的返回值已不是列表而是一个map对象，如要返回特定类型需自己设定

a = (1, 2, 3, 4, 5)
b = [1, 2, 3, 4, 5]
c = "lh"

la = list(map(str, a))
lb = set(map(str, b))
lc = tuple(map(str, c))

print(la)
print(lb)
print(lc)

['1', '2', '3', '4', '5']
{'2', '4', '3', '1', '5'}
('l', 'h')

格式化输出：pprint

例：
from pprint import pprint
data = [(1,{'a':'A','b':'B','c':'C','d':'D'}),(2,{'e':'E','f':'F','g':'G','h':'H','i':'I','j':'J','k':'K','l':'L'}),]
pprint(data)
-->结果
[(1, {'a': 'A', 'b': 'B', 'c': 'C', 'd': 'D'}),
 (2,
  {'e': 'E',
   'f': 'F',
   'g': 'G',
   'h': 'H',
   'i': 'I',
   'j': 'J',
   'k': 'K',
   'l': 'L'})]