查漏-字符串/文本处理

最新推荐文章于 2024-09-11 23:13:38 发布

鹰眼2号

最新推荐文章于 2024-09-11 23:13:38 发布

阅读量221

点赞数 1

分类专栏：查漏

本文链接：https://blog.csdn.net/qq_35810838/article/details/89815572

版权

查漏专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一些不常用的字符处理函数（常用的就不写了，谁让是用来茶楼的你）

1.字符换str

# casefold()  将大写转换为小写
# expandtabs()#将\t替换为空格
# foramt_map({key:value})
# isalnum()
# isalpha()
# isdecimal()
# isdigit()
# isidentifier()
# isnumerice()#全是数字，日期格式返回True
# zfill()
# swapace() 将所有小写改为大写，将所有的大写改为小写
# maketrans()     translate()
# Template()    safe_substitute()
‘’‘
from string import Template
a = Template('${s1} ${s2}')
a.safe_substitute(s1='lisi',s2='wangwu')

’‘’
# 利用F-string实现字符串的拼接

2.字符串加密

import hashlib
md5 = hashlib.md5()
md5.update('zhangbojun'.encode('utf8'))
len(md5.digest())
md5.hexdigest()
‘’‘71bde41e4ab2d39838ba6dbad1f61f4b’‘’

文本处理

1.结巴分词

特点：支持三种分词模式：
1.精确模式，视图将句子最精确的切开，适合本文分析；
2.全模式，把句子中所有的可以成词的词语有扫描出来，速度非常快，但是不能解决歧义；
3.搜索引擎模式，在精确模式的基础上，对长词在切分，提高召回率，适合用于搜索引擎分词
4.支持繁体分词
5.支持自定义词典
6.MIT 授权协议
安装

pip install jieba    或  pip install jieba

中文分词示例

jieba.Tokenizer(dictionary=DEFAULT_DICT)   新建自定义分词器，可用于同时使用不同的字典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

2.NLTK

全称是natural language toolkit,是一套基于python的自然语言处理工具集

安装

pip install nltk

在nltk中集成了预料与模型等的包管理器，通过在python解释器中执行

>>>import nltk
>>>nltk.download()

会弹出下面的包管理界面，在管理器中可以下载预料，训练模型等
在这里插入图片描述

NLTK功能介绍
功能实现

把句子分成一个一个的小部件（nltk.word_tokenize(‘string’)）

import nltk
sentence = "hello,world"
tokens = nltk.word_tokenize(sentence)
print(tokens)#返回的是一个列表
''' ['hello', ‘,', 'world']'''

对文本进行初级的统计与分析，它接受一个词的列表作为参数(nltk.text.Text()),具有一下方法

鹰眼2号

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录