查漏-字符串/文本处理

一些不常用的字符处理函数(常用的就不写了,谁让是用来茶楼的你)

1.字符换str

# casefold()  将大写转换为小写
# expandtabs()#将\t替换为空格
# foramt_map({key:value})
# isalnum()
# isalpha()
# isdecimal()
# isdigit()
# isidentifier()
# isnumerice()#全是数字,日期格式返回True
# zfill()
# swapace() 将所有小写改为大写,将所有的大写改为小写
# maketrans()     translate()
# Template()    safe_substitute()
‘’‘
from string import Template
a = Template('${s1} ${s2}')
a.safe_substitute(s1='lisi',s2='wangwu')

’‘’
# 利用F-string实现字符串的拼接

2.字符串加密

import hashlib
md5 = hashlib.md5()
md5.update('zhangbojun'.encode('utf8'))
len(md5.digest())
md5.hexdigest()
‘’‘71bde41e4ab2d39838ba6dbad1f61f4b’‘’

文本处理

1.结巴分词

  • 特点:支持三种分词模式:
    1.精确模式,视图将句子最精确的切开,适合本文分析;
    2.全模式,把句子中所有的可以成词的词语有扫描出来,速度非常快,但是不能解决歧义;
    3.搜索引擎模式,在精确模式的基础上,对长词在切分,提高召回率,适合用于搜索引擎分词
    4.支持繁体分词
    5.支持自定义词典
    6.MIT 授权协议

  • 安装

pip install jieba    或  pip install jieba
  • 中文分词示例
jieba.Tokenizer(dictionary=DEFAULT_DICT)   新建自定义分词器,可用于同时使用不同的字典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

2.NLTK

全称是natural language toolkit,是一套基于python的自然语言处理工具集

  • 安装
pip install nltk

在nltk中集成了预料与模型等的包管理器,通过在python解释器中执行

>>>import nltk
>>>nltk.download()

会弹出下面的包管理界面,在管理器中可以下载预料,训练模型等
在这里插入图片描述

  1. NLTK功能介绍
    在这里插入图片描述

  2. 功能实现

  • 把句子分成一个一个的小部件(nltk.word_tokenize(‘string’))
import nltk
sentence = "hello,world"
tokens = nltk.word_tokenize(sentence)
print(tokens)#返回的是一个列表
''' ['hello', ‘,', 'world']'''
  • 对文本进行初级的统计与分析,它接受一个词的列表作为参数(nltk.text.Text()),具有一下方法
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值