python中实现中文分词的第三方库是_python实现的简单中文分词器

weixin_39775910

于 2020-12-30 06:13:19 发布

阅读量2.3k

点赞数

文章标签： python中实现中文分词的第三方库是

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39775910/article/details/112036698

版权

作为一个python初学者＋自然语言处理初学者，我用python写了一个简单的中文分词器，整个程序加上注释100行左右，算是一个小练习。

1、数据来源 [1]

数据来自 Bakeoff2005 官方网站：http://sighan.cs.uchicago.edu/bakeoff2005/ 下载其中的 icwb2-data.tar.bz2 解压后取出以下文件：

训练数据：icwb2-data/training/pku_ training.utf8

测试数据：icwb2-data/testing/pku_ test.utf8

正确分词结果：icwb2-data/gold/pku_ test_ gold.utf8

评分工具：icwb2-data/script/socre

2、算法描述

算法是最简单的正向最大匹配(FMM)：

用训练数据生成一个字典

对测试数据从左到右扫描，遇到一个最长的词，就切分下来，直到句子结束

注：这是最初的算法，这样做代码可以控制在60行内，后来看测试结果发现没有很好地处理数字问题，才又增加了对数字的处理。

3、源代码及注释

#! /usr/bin/env python

# -*- coding: utf-8 -*-

# Author: minix

# Date: 2013-03-20

# Email: minix007@foxmail.com

import codecs

import sys

# 由规则处理的一些特殊符号

numMath = [u'0', u'1', u'2', u'3', u'4', u'5', u'6', u'7', u'8', u'9']

numMath_suffix = [u'.', u'%', u'亿', u'万', u'千', u'百', u'十', u'个']

numCn = [

最低0.47元/天解锁文章

weixin_39775910

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python中实现中文分词的第三方库是_python实现的简单中文分词器

作为一个python初学者＋自然语言处理初学者，我用python写了一个简单的中文分词器，整个程序加上注释100行左右，算是一个小练习。1、数据来源 [1]数据来自 Bakeoff2005 官方网站：http://sighan.cs.uchicago.edu/bakeoff2005/ 下载其中的 icwb2-data.tar.bz2 解压后取出以下文件：训练数据：icwb2-data/train...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。