python编程实现文本分词_Python:徒手创建分词函数

本文介绍了使用Python编程实现文本分词的一种基础方法——最大正向匹配法,详细解析了算法思路并提供了编程实战,包括词典导入、分词函数创建,最后展示分词结果和词频统计。
摘要由CSDN通过智能技术生成

又发现一个牛逼的东西,值得记录~~~

分词方法有很多,其中最最基础的一个方法叫做最大正向匹配法,思路如下:百度到的某无名氏贡献的流程图

该方法会从一个字符串的第一个字符作为开始,以字典中最长的词的长度作为最大匹配长度。

对“正向最大匹配算法”进行解名:

①所谓“正向是指字符串生成的方向,即从句首到句尾这个方向,以句首为起点,从左到右地截取一定长度的字符串”,相应的,“逆向”是指从句尾到句首,以句尾为起点截取一定长度的字符串。

②所谓“最大”是指我们构建的分词词典中最长的字符串的字符个数。确定最长字符数的目的是为了在目标文本中一次性截取这么长的字符串,用于与字典中的字进行比较,如果这个字符串在字典中,则划分为一个词。

以切分字符串S“我在华东吃饭大学当饭桶‘’为例。现在有一个自建的词典,如下:

我们

你们

他们

那儿

哪儿

华东

大学

学院

学习

华东师范大学

华东吃饭大学

华东女子学院

女孩

女子

女人

男孩

男人

当然

饭桶

吃饭

……

(1)已知字典里面最长的词为6个字,那么在切分字符串S时,首先会从第一个字符开始连续截取6个字符,即”我在华东吃饭“

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值