SPARK+ANSJ 中文分词基本操作

ANSJ 5.0.2

这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

下载地址 :http://maven.nlpcn.org/org/ansj/

ansj_seg-5.0.2-all-in-one.jar 

单个添加词典

import org.ansj.library.UserDefineLibrary
UserDefineLibrary.insertWord("艾泽拉斯","n",10) //参数(自定义词,词性,词频)
import org.ansj.splitWord.analysis.{BaseAnalysis, NlpAnalysis, ToAnalysis}
//基础分词
val parse = BaseAnalysis.parse("我在艾泽拉斯")
[我/r, 在/p, 艾/nr, 泽/ag, 拉/v, 斯/rg]
基础分词不支持用户自定义词典,所以不发生改变
println(parse)
//精准分词
val parse1 = ToAnalysis.parse("我在艾泽拉斯")
println(parse1)
[我/r, 在/p, 艾泽拉斯/n]
//NLP分词
val parse2 = NlpAnalysis.parse("我在艾泽拉斯")
println(parse2)
[我/r, 在/p, 艾泽拉斯/n]

单个移除词典

UserDefineLibrary.removeWord("艾泽拉斯")
val parse3 = ToAnalysis.parse("我在艾泽拉斯")
println(parse3)
[我/r, 在/p, 艾泽拉/nr, 斯/rg]

加载自定义词库

import org.ansj.library.UserDefineLibrary
词库格式("自动义词"[tab]键"词性"[tab]键"词频")
UserDefineLibrary.loadLibrary(UserDefineLibrary.FOREST,"/home/spark/opt/hadoop-2.7/bin/address2.dic")
第一个参数直接默认为 
UserDefineLibrary.FOREST
第二个参数词库路径
address2.dic 格式
艾泽拉斯    n    1000
雷霆图腾    n    1000
至高岭    n    1000
println(ToAnalysis.parse("我在艾泽拉斯至高岭雷霆图腾"))
[我/r, 在/p, 艾泽拉斯/n, 至高岭/n, 雷霆图腾/n]
去停用词

import org.ansj.recognition.impl.FilterRecognition
1.根据自定义词去停用词
val filter = new FilterRecognition()
val stopWord = "冠军"
filter.insertStopWord(stopWord)
val str = "湖人获得了冠军"
val parse4 = ToAnalysis.parse(str).recognition(filter)
println(parse4)
湖/n,人/n,获得/v,了/ul
2.根据词性去停用词
val filter1 = new FilterRecognition()
filter1.insertStopNatures("n")
val str = "湖人获得了冠军"
val parse5 = ToAnalysis.parse(str).recognition(filter)
获得/v,了/ul
3.根据正则表达式去停用词
val filter2 = new FilterRecognition()
filter2.insertStopRegex(Regex)//正则表达式



  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值