日语分词组件sen的使用 -- 分词（一）

最新推荐文章于 2024-05-18 09:39:48 发布

kindy1022

最新推荐文章于 2024-05-18 09:39:48 发布

阅读量2.4k

点赞数 1

分类专栏：搜索引擎开发

本文链接：https://blog.csdn.net/kindy1022/article/details/9148131

版权

搜索引擎开发专栏收录该内容

30 篇文章 0 订阅

订阅专栏

sen是日语的一种词典分词组建，准确性高。

1. 下载sen，下载的文件不含词典，需要用ant 重新构造。

http://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/sen-1.2.2.1.zip

构造：

# cd /usr/local/sen
# ant
Buildfile: build.xml
...
BUILD SUCCESSFUL
Total time: X seconds
# cd dic
# ant
Buildfile: build.xml
...
BUILD SUCCESSFUL
Total time: Y minute Z seconds
#

如果不想构造，我这边也保存现成的文件 http://yunpan.cn/QeUASmntdAjB8 （访问密码：b1a5）

2. 用sen词典进行分词，需要导包 http://yunpan.cn/QeUAbhPs35XwF （访问密码：8397）

public class SenAnalyzeTools {

	public SenAnalyzeTools() {
		// TODO Auto-generated constructor stub
	}
	private static StringTagger tagger;
	private static synchronized StringTagger getSingontenInstance() {
		if (tagger == null) {
			try {
				tagger = StringTagger.getInstance();
			} catch (Exception e) {
				e.printStackTrace();
			}
		} 
		return tagger;
	}
	
	public static List<String> getAnalyzeWords(String words){
		System.setProperty("sen.home", "D:\\java\\JavaWorkSpace\\Shop\\WebRoot\\sen1.2"); // 词典的存放路径
		List<String> list = new ArrayList<String>();
		try {
			net.java.sen.Token[] tokens = getSingontenInstance().analyze(words);
			for (net.java.sen.Token token : tokens) {
				if (token.getPos() != null) {
					if (token.getPos().contains("名詞")) {
						list.add(token.getBasicString());
					}
				}
				
				System.out.println("getAddInfo=="+token.getAddInfo());
				System.out.println("getCform=="+token.getCform());
				System.out.println("getCost=="+token.getCost());
				System.out.println("getPos=="+token.getPos());
				System.out.println("getSurface=="+token.getSurface());
				System.out.println("getBasicString=="+token.getBasicString());

			}
		} catch (Exception e) {
			e.printStackTrace();
		}
		return list;
	}

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String words = "Edifice EFR-50";
		System.out.println(SenAnalyzeTools.getAnalyzeWords(words));
	}

}

3. sen词典和lucene进行整合，需要下载一个包 http://yunpan.cn/QeUApI9twWYr7 （访问密码：851a）

/**
	 * 获得日文分词器

	 * */
	public static Analyzer getAnlyzer()
	{
		System.setProperty("sen.home", SEN_HOME); //词典的存放路径

		return new org.apache.lucene.analysis.ja.JapaneseAnalyzer();
	}

public static IndexWriter openIndexWriter(String indexPath) {
		System.setProperty("sen.home", SEN_HOME); // 索引的存放路径

		try {
		   File indexDir = new File(indexPath);
		   File file = new File(STR_INDEXDIR+"/segments");
		   IndexWriter writer = null;
		   if(indexDir.exists()){
				if(indexDir.listFiles().length > 1){
					writer = new IndexWriter(indexDir,getAnlyzer(), false);
					if(writer != null){						
						writer.setUseCompoundFile(true);
					}
		            return writer;
				}
				else
				{					
					writer = new IndexWriter(indexDir,getAnlyzer(),!file.exists());
					if(writer != null){						
						writer.setUseCompoundFile(true);
					}
					return writer;
				}
			}
			else{
		    	throw new Exception(indexDir+ " does not exist or is not a directory.");
		   }
		} catch (Exception e) {
			e.printStackTrace();
			doLuceneException();
		}
		return null;
	}

4. sen词典也是可以自己构造的，可以做成自定义的词典。

词典制作

1：第一步：

首先需要找到准备做词典的词

寻找方法：

以前的做法是找到数据中的所有平假名和汉字在一起的名词词语，然后根据词频进行判断，最后找出所有词频大于某个数字的词语作为候选词语

2：生成csv文件

这个csv文件是生成sen词典的必须部分

Csv文件的格式大致如下

国務,2676,名詞,一般,*,*,*,*,国務,コクム,コクム

其中“国務”就是我们的需要做词典的词语，最后面的“コクム,コクム”这两部分我们不用理会，以*代替，最后的格式为：国務,2676,名詞,一般,*,*,*,*,国務,*,*

其中词性包括：

名詞-一般

名詞-固有名詞-一般

名詞-固有名詞-地域-一般

形容詞-自立

助詞-副詞化等等

我们做词典使用的词性是所有的名词

然后把我们找到的词制作成dic.csv文件，这是前提条件

3：使用ant命令生成sen词典

首先去要安装ant环境，和制作sen词典需要的环境变量

Ant下载地址：http://ant.apache.org/ 下载最新版本1.7

Sen环境需要下载lucene-ja.jar和lucene-core-2.3.2.jar,commons-logging.jar,sen.jar,commons-logging-api.jar,这些jar文件都可以在apache官方网找上找到

接下来在硬盘中建立一个文件夹，将其sen1.2这个文件夹拷贝到新建的文件夹下，sen1.2这个文件夹是sen词典自带的文件夹，可以在我们的项目中找到

把我们刚刚生成的dic.csv文件拷贝到sen1.2文件夹下，覆盖原先的dic.csv，最后一步就进入命令行执行ant命令，执行完毕后会生成4个后缀以sen结尾的文件，分别为da.sen，matrix.sen，posInfo.sen，token.sen，这4个文件就是我们生成后的字典。只需要这4个文件就好了

词典制作过程

利用标准的词典来制作我们网站需要的词典。

总体分为一下几步：

读出我们网站数据库中的数据。
对数据进行过滤，模式匹配，去掉无关字符。
用标准词典进行分词，进行词性判断，只留名词。
统计，去重。
在索引中查询，确定词典的用词。
搭建ANT Perl 环境，生成词典。
查询优化词典，加入缺少的词。
重复第6，7步。

最后将生成的词典放入系统中进行应用。

以下是词典制作的详细步骤和例子：

读出我们网站数据库中的数据。

这一步主要是从数据库中读出我们抓取的原数据，可以先读在文件里面，也可以一边读一边进行第2步操作，根据机子的性能决定。

在lyfee词典的制作过程中，先将数据库中的原数据写到文件中去。运行Make_Dictionary工程中/Make_Dictionary/src/com/itmg/cyh/dao/FindLinkOne.java类。20万条数据写一个文件。

2．对数据进行过滤，模式匹配，去掉无关字符。

这一步是将读出来的文本进行匹配，过滤去掉文本中无关的字符(如：数字，字母各种特殊字符等。)

在lyfee中/Make_Dictionary/src/com/itmg/cyh/findLink/LinkPartern.java类进行文本的匹配，过滤等。

用标准词典进行分词，进行词性判断，只留名词。

这一步是将第二步得到的结果用标准词典进行分词，分词在四次以上的我们要，在这一步中就直接去掉，用词性进行判断，只留下名词，在名词中又分为表示地名的名词，然后写在不同的文件中。

在lyfee中/Make_Dictionary/src/com/itmg/cyh/findLink/DetailSearchBean.java类中的parseCommonPartern()方法进行此操作。然后直接运行类DetailSearchBean.java第2步和第3步同时进行。

统计，去重。

这一步是统计第三步得到的结果，判断词出现的频率，将出现频率在10次以上的词和10词一下的词写在不同的文件中。

在lyfee中，/Make_Dictionary/src/com/itmg/cyh/findLink/Account.java类中的countFilter()方法进行此项操作。

在索引中查询，确定词典的用词。

将第四步得到的结果一个一个的在索引中进行查询，将搜索结果在5条以上的词确定为词典用词，写在对应的文件中。

在lyfee中/Make_Dictionary/src/com/itmg/cyh/findLink/Account.java类中的accountByIndex()方法进行此项操作。

直接运行Account.java类，第四步和第五步一块执行。

6. 搭建ANT Perl 环境，生成词典。

配置ant 和 perl环境，生成词典。

改了
<propertyname="commons-logging.jar"value="d:/sen/lib/commons-logging.jar"/>
<propertyname="commons-logging-api.jar"value="d:/sen/lib/commons-logging-api.jar"/>
<propertyname="sen.jar" value="d:/sen/lib/sen.jar"/>

在lyfee中/Make_Dictionary/src/com/itmg/cyh/tool/MakeDic.java类将词典用此写到对应的csv文件中，最后在命令行下运行ant命令，编译生成词典。

差性能优化词典，加入缺少的词。

将生成的词典应用于系统中，查询，加入缺少的词，重复进行。最后得到系统可用的词典。

kindy1022

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
日语分词组件sen的使用 -- 分词（一）

sen是日语的一种词典分词组建，准确性高。1. 下载sen，下载的文件不含词典，需要用ant 重新构造。http://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/sen-1.2.2.1.zip构造：# cd /usr/local/sen# antBuildfile: build.xml..
复制链接

扫一扫

专栏目录