jieba库及判断类型是否一致

jieba库

一个优秀的中文分词第三方库
有精确模式、全模式、搜索引擎模式
  1. 精确模式:把文本精确的切分开,不存在冗余单词
jieba.lcut
例:
jieba.lcut('中国是一个伟大的国家')
->>['中国', '是', '一个', '伟大', '的', '国家']
  1. 全模式: 把文本所有可能的词语扫描出来,有冗余
例:
s = '中国是一个伟大的国家'
print(jieba.lcut(s, cut_all=True))
->>['中国', '国是', '一个', '伟大', '的', '国家']
  1. 搜索引擎模式:在精确的基础上,对长词再次进行切分
例:
s = '中华人民共和国是伟大的国家'
print(jieba.lcut_for_search(s))
->>['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的', '国家']
  1. 向词典增加新词
 jieba.add_word(w)
 例:
 jieba.add_word('蟒蛇语言')

判断类型是否一致

isinstance()
例子:
a=2
isinstance(a, str)		 a是否为字符串类型
->>False
isinstance(a, (str, int, list)) 	 a若为多种类型(元组表示)中的一种,则返回True
->>True

扩展:

map(function, iterable, …)
将第一个函数名应用到后面每一个参数上
注意iterable传的是一个可以迭代的对象,
还有在新的版本下,其默认的返回值已不是列表而是一个map对象,如要返回特定类型需自己设定

a = (1, 2, 3, 4, 5)
b = [1, 2, 3, 4, 5]
c = "lh"

la = list(map(str, a))
lb = set(map(str, b))
lc = tuple(map(str, c))

print(la)
print(lb)
print(lc)

['1', '2', '3', '4', '5']
{'2', '4', '3', '1', '5'}
('l', 'h')

格式化输出:pprint

例:
from pprint import pprint
data = [(1,{'a':'A','b':'B','c':'C','d':'D'}),(2,{'e':'E','f':'F','g':'G','h':'H','i':'I','j':'J','k':'K','l':'L'}),]
pprint(data)
-->结果
[(1, {'a': 'A', 'b': 'B', 'c': 'C', 'd': 'D'}),
 (2,
  {'e': 'E',
   'f': 'F',
   'g': 'G',
   'h': 'H',
   'i': 'I',
   'j': 'J',
   'k': 'K',
   'l': 'L'})]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值