最近做的几个项目

本文介绍了一种改进的libmmseg分词方法,并将其应用于行业词的自动识别。通过使用Hadoop MapReduce实现的大规模并行计算,对从多个招聘网站获取的311万条职位描述进行分析,得到了不同长度的高频词汇及其准确率。
摘要由CSDN通过智能技术生成

1. 把libmmseg分词加了与lucene吻合的java接口,分词速度与c++版本接近, 已经和作者联系了.会在近期开源出去.

 

 

2. 用hadoop的mapreduce模型做了一个自动识别行业词的程序, 从算法上降低了计算量,而且分布式的话会更加快.

我用一份从51job, 智联招聘, 中华英才网等400多家招聘网站抓取的311万条职位语料做测试,5, 4元词词频在1000以上的正确率达95%以上,3元的差了点在60左右(没仔细统计,估计去掉功能字会好些), 2元的99%以上. 

这个东东对做行业词库比较有用, 可以增加中文分词器的精度.  这段代码也会近期开源, 希望有大量语料的兄弟能给些过来测试. 我会考虑更好的算法. :) 

 

很奇怪的是4元词词频最高的是"项目经理",看来这年头管理的人员貌似很多哦

不过5元的词频最高前几位都是"**工程师",不管什么都是工程师了, 名称挺cooool的,实际上就是打杂的小兵~~

可想而知3元最多的是"工程师"了.

我已经去了高元向低元词的统计重叠,这个统计没错

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值