第9讲 9. ElasticSearch中文分词smartcn

1,安装中文插件,参考文档:http://www.cruiseloveashley.com/news/?7917.html
2,测试分词效果,/_analyze/路径, analyzer为key,smartcn为value,见参考文档:http://www.cruiseloveashley.com/news/?7917.html
3,新建索引film2,分片5,副本1,新建结构,title和content要指定analyzer,smartcn分词
9._ElasticSearch中文分词smartcn
新建结构,
9._ElasticSearch中文分词smartcn
4, 添加测试数据:见附件
5,写Java代码,实现smart 分词,

   常规代码也可以起到分词的效果,下面的是常规代码以及解释:
    @Test
    public void searchByCondition() throws Exception{
//     SearchRequestBuilder srb = client.prepareSearch("film").setTypes("dongzuo");
       SearchRequestBuilder srb = client.prepareSearch("film2").setTypes("dongzuo");
       SearchResponse sr = srb.setQuery(QueryBuilders.matchQuery("title", "战"))
           .setFetchSource(new String[]{"title","price"}, null)
           .execute()
           .actionGet();
       SearchHits hits = sr.getHits();
       for (SearchHit hit : hits) {
           System.out.println(hit.getSourceAsString());
       }
    }
对以上代码解释:再添加数据的时候,film 使用的是默认的标准分词器,film2使用的是smartcn分词器。使用标准分词器,会把每一个汉字拆分开,搜索到的结果将是两条记录;使用smartcn分词器,会把一些单词看成是一个词,搜索结果将是一条记录。
film 对应的结果:
    {"price":"38","title":"战狼2"}
   {"price":"55","title":"星球大战8:最后的绝地武士"}
film2 对应的结果:
   {"price":"38","title":"战狼2"}

Java使用smartcn分词:代码:
package com.cruise;

import java.net.InetAddress;

import org.elasticsearch.action.search.SearchRequestBuilder;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.transport.TransportClient;
import org.elasticsearch.common.settings.Settings;
import org.elasticsearch.common.transport.InetSocketTransportAddress;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.SearchHits;
import org.elasticsearch.transport.client.PreBuiltTransportClient;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class TestPartSearch {

    private static String host="192.168.245.40";
    private static int port=9300;
    private TransportClient client =null;
    public static final String ANALYZER="smartcn";
    public static final String CLUSTER_NAME="my-application";
    private static Settings.Builder settings=Settings.builder().put("cluster.name",CLUSTER_NAME);
    
    
    @SuppressWarnings({ "resource", "unchecked" })
    @Before
    public void getClient() throws Exception{
       client = new PreBuiltTransportClient(settings.build())
              .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(host),port));
    }
    
    @After
    public void close(){
       if(client!=null){
           client.close();
       }
    }
    
    @Test
    public void searchByCondition() throws Exception{
       SearchRequestBuilder srb = client.prepareSearch("film2").setTypes("dongzuo");
       SearchResponse sr = srb.setQuery(QueryBuilders.matchQuery("title", "最后狼").analyzer(ANALYZER))
           .setFetchSource(new String[]{"title","price"}, null)
           .execute()
           .actionGet();
       SearchHits hits = sr.getHits();
       for (SearchHit hit : hits) {
           System.out.println(hit.getSourceAsString());
       }
    }
}



6,写Java代码,实现多字段分词查询,
 package com.cruise;

import java.net.InetAddress;

import org.elasticsearch.action.search.SearchRequestBuilder;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.transport.TransportClient;
import org.elasticsearch.common.settings.Settings;
import org.elasticsearch.common.transport.InetSocketTransportAddress;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.SearchHits;
import org.elasticsearch.transport.client.PreBuiltTransportClient;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class TestPartSearch {

    private static String host="192.168.245.40";
    private static int port=9300;
    private TransportClient client =null;
    public static final String ANALYZER="smartcn";
    public static final String CLUSTER_NAME="my-application";
    private static Settings.Builder settings=Settings.builder().put("cluster.name",CLUSTER_NAME);
    
    
    @SuppressWarnings({ "resource", "unchecked" })
    @Before
    public void getClient() throws Exception{
       client = new PreBuiltTransportClient(settings.build())
              .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(host),port));
    }
    
    @After
    public void close(){
       if(client!=null){
           client.close();
       }
    }
    
    @Test
    public void searchByCondition() throws Exception{
       SearchRequestBuilder srb = client.prepareSearch("film2").setTypes("dongzuo");
       SearchResponse sr = srb.setQuery(QueryBuilders.multiMatchQuery("铁拳冷锋","title","content").analyzer(ANALYZER))
           .setFetchSource(new String[]{"title","price"}, null)
           .execute()
           .actionGet();
       SearchHits hits = sr.getHits();
       for (SearchHit hit : hits) {
           System.out.println(hit.getSourceAsString());
       }
    }
}

以下film2测试数据

package com.cruise;

import java.net.InetAddress;

import org.elasticsearch.action.delete.DeleteResponse;
import org.elasticsearch.action.get.GetResponse;
import org.elasticsearch.action.index.IndexResponse;
import org.elasticsearch.action.update.UpdateResponse;
import org.elasticsearch.client.transport.TransportClient;
import org.elasticsearch.common.settings.Settings;
import org.elasticsearch.common.transport.InetSocketTransportAddress;
import org.elasticsearch.common.xcontent.XContentType;
import org.elasticsearch.transport.client.PreBuiltTransportClient;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import com.google.gson.JsonArray;
import com.google.gson.JsonObject;

public class TestFilm {

	private static String host="192.168.245.40";
	private static int port=9300;
	private TransportClient client =null;
	public static final String CLUSTER_NAME="my-application";
	private static Settings.Builder settings=Settings.builder().put("cluster.name",CLUSTER_NAME);
	
	
	@SuppressWarnings({ "resource", "unchecked" })
	@Before
	public void getClient() throws Exception{
		client = new PreBuiltTransportClient(settings.build())
				.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(host),port));
	}
	
	@After
	public void close(){
		if(client!=null){
			client.close();
		}
	}
	
	@Test
	public void testIndex() throws Exception{
		
     JsonArray jsonArray=new JsonArray();
    	
    	JsonObject jsonObject=new JsonObject();
    	jsonObject.addProperty("title", "前任3:再见前任");
    	jsonObject.addProperty("publishDate", "2017-12-29");
    	jsonObject.addProperty("content", "一对好基友孟云(韩庚 饰)和余飞(郑恺 饰)跟女友都因为一点小事宣告分手,并且“拒绝挽回,死不认错”。两人在夜店、派对与交友软件上放飞人生第二春,大肆庆祝“黄金单身期”,从而引发了一系列好笑的故事。孟云与女友同甘共苦却难逃“五年之痒”,余飞与女友则棋逢敌手相爱相杀无绝期。然而现实的“打脸”却来得猝不及防:一对推拉纠结零往来,一对纠缠互怼全交代。两对恋人都将面对最终的选择:是再次相见?还是再也不见?");
    	jsonObject.addProperty("director", "田羽生");
    	jsonObject.addProperty("price", "35");
    	jsonArray.add(jsonObject);
    	
    	
    	JsonObject jsonObject2=new JsonObject();
    	jsonObject2.addProperty("title", "机器之血");
    	jsonObject2.addProperty("publishDate", "2017-12-29");
    	jsonObject2.addProperty("content", "2007年,Dr.James在半岛军火商的支持下研究生化人。研究过程中,生化人安德烈发生基因突变大开杀戒,将半岛军火商杀害,并控制其组织,接管生化人的研究。Dr.James侥幸逃生,只好寻求警方的保护。特工林东(成龙 饰)不得以离开生命垂危的小女儿西西,接受证人保护任务...十三年后,一本科幻小说《机器之血》的出版引出了黑衣生化人组织,神秘骇客李森(罗志祥 饰)(被杀害的半岛军火商的儿子),以及隐姓埋名的林东,三股力量都开始接近一个“普通”女孩Nancy(欧阳娜娜 饰)的生活,想要得到她身上的秘密。而黑衣人幕后受伤隐藏多年的安德烈也再次出手,在多次缠斗之后终于抓走Nancy。林东和李森,不得不以身犯险一同前去解救,关键时刻却发现李森竟然是被杀害的半岛军火商的儿子,生化人的实验记录也落入了李森之手......");
    	jsonObject2.addProperty("director", "张立嘉");
    	jsonObject2.addProperty("price", "45");
    	jsonArray.add(jsonObject2);
    	
    	JsonObject jsonObject3=new JsonObject();
    	jsonObject3.addProperty("title", "星球大战8:最后的绝地武士");
    	jsonObject3.addProperty("publishDate", "2018-01-05");
    	jsonObject3.addProperty("content", "《星球大战:最后的绝地武士》承接前作《星球大战:原力觉醒》的剧情,讲述第一军团全面侵袭之下,蕾伊(黛西·雷德利 Daisy Ridley 饰)、芬恩(约翰·博耶加 John Boyega 饰)、波·达默龙(奥斯卡·伊萨克 Oscar Isaac 饰)三位年轻主角各自的抉 择和冒险故事。前作中觉醒强大原力的蕾伊独自寻访隐居的绝地大师卢克·天行者(马克·哈米尔 Mark Hamill 饰),在后者的指导下接受原力训练。芬恩接受了一项几乎不可能完成的任务,为此他不得不勇闯敌营,面对自己的过去。波·达默龙则要适应从战士向领袖的角色转换,这一过程中他也将接受一些血的教训。");
    	jsonObject3.addProperty("director", "莱恩·约翰逊");
    	jsonObject3.addProperty("price", "55");
    	jsonArray.add(jsonObject3);
    	
    	JsonObject jsonObject4=new JsonObject();
    	jsonObject4.addProperty("title", "羞羞的铁拳");
    	jsonObject4.addProperty("publishDate", "2017-12-29");
    	jsonObject4.addProperty("content", "靠打假拳混日子的艾迪生(艾伦 饰),本来和正义感十足的体育记者马小(马丽 饰)是一对冤家,没想到因为一场意外的电击,男女身体互换。性别错乱后,两人互坑互害,引发了拳坛的大地震,也揭开了假拳界的秘密,惹来一堆麻烦,最终两人在“卷莲门”副掌门张茱萸(沈腾 饰)的指点下,向恶势力挥起了羞羞的铁拳。");
    	jsonObject4.addProperty("director", "宋阳 / 张吃鱼");
    	jsonObject4.addProperty("price", "35");
    	jsonArray.add(jsonObject4);
    	
    	JsonObject jsonObject5=new JsonObject();
    	jsonObject5.addProperty("title", "战狼2");
    	jsonObject5.addProperty("publishDate", "2017-07-27");
    	jsonObject5.addProperty("content", "故事发生在非洲附近的大海上,主人公冷锋(吴京 饰)遭遇人生滑铁卢,被“开除军籍”,本想漂泊一生的他,正当他打算这么做的时候,一场突如其来的意外打破了他的计划,突然被卷入了一场非洲国家叛乱,本可以安全撤离,却因无法忘记曾经为军人的使命,孤身犯险冲回沦陷区,带领身陷屠杀中的同胞和难民,展开生死逃亡。随着斗争的持续,体内的狼性逐渐复苏,最终孤身闯入战乱区域,为同胞而战斗。");
    	jsonObject5.addProperty("director", "吴京");
    	jsonObject5.addProperty("price", "38");
    	jsonArray.add(jsonObject5);
    	
    	
		for (int i = 0; i < jsonArray.size(); i++) {
			JsonObject jO = jsonArray.get(i).getAsJsonObject();
			IndexResponse indexResponse = client.prepareIndex("film2","dongzuo")
					.setSource(jO.toString(), XContentType.JSON).get();
			System.out.println("索引名称:"+indexResponse.getIndex());
			System.out.println("类型:"+indexResponse.getType());
			System.out.println("id:"+indexResponse.getId());
			System.out.println("当前索引状态:"+indexResponse.status());
			
		}
		
	}
	
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值