![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Java
Miracle_Lin01
gt's dad
展开
-
Elastic Search个人学习(4) 分词器 2 tokenizer与token filter
Tokenizer与Token Filter Tokenizer是自定义分词语,他将原始文本按照一定规则切分为单词,自带的有: Standard 将单词转换为小写, 并去除标点符号 Simple 根据非字母字符来分割文本信息,然后转为小写,该分词器会去掉数字类型的字符 Whitespace 以空格来分割 Stop 在Simple的基础上增加了去掉英文中的常用单词,比如 The, a Keyword 把整个输入作为一个单独词汇单元,不进行分词 Pattern 通过正则表达式分原创 2020-10-16 14:37:12 · 495 阅读 · 1 评论 -
Elastic Search个人学习(4) 分词器 1 char_filter
Elastic Search分词器 Analysis与Analyser: Analysis是将全文分词的过程, Analysis是通过Analyser实现的。 Analyser由三部分组成: Character Filters, Tokenizers, Token Filters。 (1) Character filter: 对要分词的文本进行预处理,比如去掉html标签, 替换字符。 自带的有: “html_strip” 去除html标签 “mapping” 进行字符替换, “pattern repla原创 2020-10-15 20:06:59 · 572 阅读 · 0 评论 -
Elastic Search个人学习(3) 倒排索引
Elastic Search倒排索引 倒排索引分为两块: 单词词典(Term Dictionary): 单词词典记录了所有分词后的单词与单词到倒排列表的关联关系,采用B+树的模型搭建 倒排列表 例如两个文档 梦幻西游真好玩, 好玩的游戏哪些。 这两句话经历一定得分词后变成 梦幻西游 真 好玩 和 好玩 游戏 哪些。 以单词‘好玩’为例 文档Id 文档内容 分词结果 1 梦幻西游真好玩 梦幻西游 真 好玩 2 好玩的游戏有哪些原创 2020-10-15 16:34:33 · 203 阅读 · 0 评论 -
Elastic Search个人学习(2) 基本操作
Elastic Search基本概念 文档 -> document -> 类似于Mysql中的一条数据 索引-> index ->类似于Mysql中的一张表 (ES6过后索引类似于Mysql的一张表,原先类比于一个database) 对Elastic Search的操作是基于Restful标准, 增删改查对应的Method为POST DELETE PUT GET 查询API: /GET /{indexName}/{typeName}/id 如 /GET /testindex/doc原创 2020-10-15 11:32:15 · 211 阅读 · 0 评论 -
Elastic Search个人学习(1) 环境搭建
Elastic Search环境搭建: Elastic Search下载官网链接:https://www.elastic.co/downloads/elasticsearch Kibana下载官网链接:https://www.elastic.co/downloads/kibana windows环境下 从官网下载下来的Elastic Search的tar包解压后运行bin\elasticsearch.bat 启动elastic search,命令行提示Started后,Elastic Search启动成功原创 2020-10-15 09:47:38 · 133 阅读 · 0 评论 -
踩坑两次了#24 java Long类型的相等
踩坑两次了 项目中有个根据index判断是否相等的问题, debug竟然发现141 == 141的结果是false。 研究后发现是Long类型的问题。 Long中有一个静态的内部类LongCache,专门用于缓存-128至127之间的值,一共256个元素。 如果值在[-128, 127]之间,会放在缓存里面,而超过这个范围就要new一个新的对象,也就是说==不能判断对象是否相等。当然,如果值是在[...原创 2019-12-03 13:35:28 · 137 阅读 · 0 评论