一些不常用的字符处理函数(常用的就不写了,谁让是用来茶楼的你)
1.字符换str
# casefold() 将大写转换为小写
# expandtabs()#将\t替换为空格
# foramt_map({key:value})
# isalnum()
# isalpha()
# isdecimal()
# isdigit()
# isidentifier()
# isnumerice()#全是数字,日期格式返回True
# zfill()
# swapace() 将所有小写改为大写,将所有的大写改为小写
# maketrans() translate()
# Template() safe_substitute()
‘’‘
from string import Template
a = Template('${s1} ${s2}')
a.safe_substitute(s1='lisi',s2='wangwu')
’‘’
# 利用F-string实现字符串的拼接
2.字符串加密
import hashlib
md5 = hashlib.md5()
md5.update('zhangbojun'.encode('utf8'))
len(md5.digest())
md5.hexdigest()
‘’‘71bde41e4ab2d39838ba6dbad1f61f4b’‘’
文本处理
1.结巴分词
-
特点:支持三种分词模式:
1.精确模式,视图将句子最精确的切开,适合本文分析;
2.全模式,把句子中所有的可以成词的词语有扫描出来,速度非常快,但是不能解决歧义;
3.搜索引擎模式,在精确模式的基础上,对长词在切分,提高召回率,适合用于搜索引擎分词
4.支持繁体分词
5.支持自定义词典
6.MIT 授权协议 -
安装
pip install jieba 或 pip install jieba
- 中文分词示例
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同的字典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
2.NLTK
全称是natural language toolkit,是一套基于python的自然语言处理工具集
- 安装
pip install nltk
在nltk中集成了预料与模型等的包管理器,通过在python解释器中执行
>>>import nltk
>>>nltk.download()
会弹出下面的包管理界面,在管理器中可以下载预料,训练模型等
-
NLTK功能介绍
-
功能实现
- 把句子分成一个一个的小部件(nltk.word_tokenize(‘string’))
import nltk
sentence = "hello,world"
tokens = nltk.word_tokenize(sentence)
print(tokens)#返回的是一个列表
''' ['hello', ‘,', 'world']'''
- 对文本进行初级的统计与分析,它接受一个词的列表作为参数(nltk.text.Text()),具有一下方法