简单的基于规则的汉语拼音分词

当用户输入连续的没有空格分隔的全拼时怎么分词?本分词基于汉语拼音的规则进行简单的分词。有以下缺点:

1.xi‘an(西安)这种会不分词,xi’nan(西南)会分成(xin an)新安。没有考虑词频语义。

2.如果其中有非拼音的字母,例如womendekpi,因为kpi无法拆分,则整个分词会失败。

//声母表
	static String[] smb = new String[]{"b", "p", "m", "f", "d", "t", "l", "n", "g", "h", "k"
			, "j", "q", "x", "z", "c", "s", "r", "y", "w", "zh", "ch", "sh"};
	//韵母表
	static String[] ymbmax = new String[]{
			"iang", "iong", "uang",
			"ang", "ong", "eng", "ing", "iao", "ian", "uai", "uan",
			"an", "ao", "ai", "ou", "en", "er", "ei",
			"ia", "iu", 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值