网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
了解字段类型之后,给不同的字段自定义数据类型,创建索引时进行指定。
PUT my-index
{
"mappings": {
"properties": {
"city": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}
properties添加字段,fields使一个字段在不同类型搜索时是否可分析
city字段全文检索
city.raw字段是city的keyword版本,可被用于排序和聚合操作。
接下来先了解字段等概念,之后再配合搜索对映射进行深入理解。
常见数据类型
- boolean:true、false
- Numeric:
- byte:8位有符号整数
- short:16位有符号整数
- integer:32位有符号整数
- long、unsigned_long:有(无)符号64位整数
- Keywords:
- keyword:用于结构化内容,例如 ID、电子邮件地址、主机名、状态代码、邮政编码或标签。
- constant_keyword:始终包含相同值的关键字字段。
- wildcard:非结构化,机器生成的长数据
- date:日期,可使用format自定义
- Range:
- integer_range:32位有字符整数,-231 ~ 231-1
- long_range:64位有符号整数
- double_range:64位IEEE754类型浮点数
- date_range:日期,可以使用format自定义格式
- ip_range:ipv4和ipv6均支持
- Text:
- text:全文,一般是会进行分析和分析,邮件正文,商品描述等
- match_only_text:空间优化,禁用评分,适合日志消息。
文档(document)
- _index:文档存放在的索引
- _type:文档表示的对象类别,之前与关系型数据库的table对应,现在不再强调这个
- _id:文档唯一标识
- _version:版本,更新文档时,该字段会改变
- _source:数据
领域特定语言 (DSL)
使用 JSON 构造了一个请求。包含了filter range过滤器。
分词器
在全文检索情况下,对text等类型分词,方便建立倒排索引。常见的分词器有
- ik分词器
- icu分词器
- smartcn分词器
- pinyin分词器
更多分词器见参考,es官方github上有一些。腾讯云可支持大部分插件,点击ES集群->插件列表。如下图所示。
得分排序
按照相关性得分排序,一般使用TF-IDF算法(见参考,本文主要还是在ES实践方面,算法不赘述),通过_score返回得分
后台执行的操作
- 分配文档到不同的容器 或 分片 中,文档可以储存在一个或多个节点中
- 按集群节点来均衡分配这些分片,从而对索引和搜索过程进行负载均衡
- 复制每个分片以支持数据冗余,从而防止硬件故障导致的数据丢失
- 将集群中任一节点的请求路由到存有相关数据的节点
- 集群扩容时无缝整合新节点,重新分配分片以便从离群节点恢复
深入搜索(实践)
ES,you know, for search, 搜索才是重点!!!
数据添加
索引heros,字段及类型如下:
- name:keyword
- age:byte
- role:keyword
- birthday:date
- mail:text
- hobby:text
- sentence:text
数据如下:
name | age | role | birthday | hobby | sentence | |
---|---|---|---|---|---|---|
大乔 | 18 | 辅助 | 2003-11-10 | daqiao@163.com | 写诗 画画 | 诗是自由的载体 |
小乔 | 19 | 法师 | 2002-01-20 | xiaoqiao@sina.com | 画画 唱歌 | Whenever you need me, I’ll be here. |
孙策 | 25 | 坦克 | 1996-11-10 | sunce@163.com | 画画 唱歌 | 我向往诗和远方,也不会忘记她和故乡 |
周瑜 | 23 | 法师 | 1998-01-20 | zhouyu@sina.com | 写诗 画画 | Whenever you are in trouble,I’m always near. |
刘备 | 30 | 打野 | 1991-10-20 | liubei@qq.com | 兵法 武器 | Shi wo bu tai dong |
孙尚香 | 26 | 射手 | 1995-10-20 | 兵法 化妆 | 詩我不太懂 |
创建索引及文档
PUT /heros
这里使用的Kibana的DevTools,如果你看了ES系列第一篇文章,有白嫖腾讯云的ES集群,可以点击可视化配置,给Kibana配置公网白名单即可,由于我前面的文章还没有介绍Kibana的使用,你可以继续使用Postman、curl或elasticsearch-head插件来发起请求。
查看setting和mapping情况
GET /heros?pretty
添加一个文档
POST /heros/_doc/1001
{
"name":"大乔",
"age":18,
"role":"辅助",
"birthday":"2003-11-10",
"mail":"daqiao@163.com",
"hobby":"写诗 画画",
"sentence":"诗是自由的载体"
}
结果如下
再次查询mapping
可以看到ES自动添加了类型,但是与我们要求的不符合。有些不会自动分词,无法进行后序的搜索。
删除索引,再次添加
PUT /heros
{
"settings": {
"number\_of\_shards": 1,
"number\_of\_replicas": 1
},
"mappings": {
"properties": {
"name":{
"type": "keyword"
},
"age":{
"type": "byte"
},
"role":{
"type": "keyword"
},
"mail":{
"type":"text"
},
"birthday":{
"type":"date"
},
"hobby":{
"type": "text"
},
"sentence":{
"type":"text"
}
}
}
}
之后添加文档,其他英雄的放在附录了,最终的索引应该如下图所示:
结构化搜索
结构化搜索(Structured search) 是指有关探询那些具有内在结构数据的过程。比如日期、时间和数字都是结构化的:它们有精确的格式,我们可以对这些格式进行逻辑操作。
在结构化查询中,要么存于集合之中,要么存在集合之外。结构化查询不关心文件的相关度或评分;它简单的对文档包括或排除处理。
单一过滤器(term)
我们首先来看最为常用的 term 查询, 可以用它处理数字(numbers)、布尔值(Booleans)、日期(date)等。
注意:ES5.0后,已经没有string类型了
警告:尽量不要用于text类型字段
查询角色是“法师”的英雄
GET /heros/_search
{
"query":{
"term":{
"role":"法师"
}
}
}
结果如下图所示
多个精确值terms
查询角色是“法师”或“射手”的英雄
GET /heros/_search
{
"query":{
"terms":{
"role":["法师","射手"]
}
}
}
结果如图所示
可以看到,多了射手角色的英雄。
范围过滤器(range)
{
"range":{
"field\_name":{
},
}
}
对字段进行范围过滤,常用的如下
- gt: > 大于(greater than)
- lt: < 小于(less than)
- gte: >= 大于或等于(greater than or equal to)
- lte: <= 小于或等于(less than or equal to)
查询19<=age<25的英雄
GET /heros/_search
{
"query": {
"range":{
"age":{
"gte":19,
"lt":25
}
}
}
}
结果如下图所示
组合过滤器(bool过滤器)
将多个过滤器进行组组合
{
"bool" : {
"must" : [],
"must\_not" : [],
"should" : [],
"filter":[],
}
}
- must:所有语句必须匹配,相当于and
- must_not:所有语句不能匹配,相当于not
- should:至少有一个语句匹配,相当于or
查询角色是法师或辅助,年龄必须小于20,邮箱不能是新浪邮箱的英雄
GET /heros/_search
{
"query": {
"bool": {
"must": {
"range":{
"age":{
"lt":20
}
}
},
"must\_not":
{
"match":{"mail":"@sina.com"}
},
"should": [
{
"term": {"role": "法师"}
},
{
"term":{"role":"辅助"}
}
]
}
}
}
看前面的数据可以发现,就剩大乔了,结果如下图所示
NULL值处理(exists)
查询有邮箱的英雄
GET /heros/_search
{
"query": {
"exists": {
"field": "mail"
}
}
}
结果如下图所示
那么,如何查询不存在邮箱的英雄呢?之前有missing,现在不支持了,可以使用must_not进行嵌套
GET /heros/_search
{
"query": {
"bool": {
"must\_not": {
"exists":{
"field": "mail"
}
}
}
}
}
结果如下图所示
全文搜索
基于词项与基于全文
如 term 或 fuzzy 这样的底层查询不需要分析阶段,它们对单个词项进行操作。
像 match 或 query_string 这样的查询是高层查询,它们了解字段映射的信息
匹配搜索(match)与操作符(operator)
查询sentence中含诗的英雄
GET /heros/_search
{
"query": {
"match": {
"sentence": "诗"
}
}
}
结果如下图所示
可以看到,评分语句更短的评分更高
多词搜索情况下
查询sentence中含“我 诗”的英雄
GET /heros/_search
{
"query": {
"match": {
"sentence": "我 诗"
}
}
}
结果如下图所示
可以看到有些只包含我或诗的内容也出来了,虽然排名落后,如何做到且呢,前面使用了must,这里使用operator实现
GET /heros/_search
{
"query": {
"match": {
"sentence": {
"query": "我 诗",
"operator": "and"
}
}
}
}
结果如下图所示
权重提升(boost)
查询sentence中必须包含"Whenever",有"in"或者"be"的英雄
GET /heros/_search
{
"query": {
"bool": {
"must": [
{"match": {
"sentence": "Whenever"
}}
],
"should": [
{ "match": { "sentence": "in" }
},
{ "match": { "sentence": "be" }}
]
}
}
}
结果如下图所示
现要求含in的权重更高,也就是提高_score来提高搜索排名
boost默认为1,通过增加in的boost来提高in的排名
GET /heros/_search
{
"query": {
"bool": {
"must": [
{"match": {
"sentence": "Whenever"
}}
],
"should": [
{ "match": {
"sentence": {
"query": "in",
"boost": 2
}
}
},
{ "match": { "sentence": "be" }}
]
}
}
}
结果如下图所示
多字段搜索
前面已经进行了简单的多字符串搜索,不过,还有一些多字段时复杂的搜索情况。
最佳字段查询(dis_max与tie_breaker)
查询爱好有诗,sentence(随便起的名字,可以理解为个性签名或一句话介绍)中有诗或她的英雄
GET /heros/_search
{
"query": {
"bool": {
"should": [
{ "match": { "hobby": "诗" }},
{ "match": { "sentence": "诗 她" }}
]
}
### 给大家的福利
**零基础入门**
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
![](https://img-blog.csdnimg.cn/img_convert/95608e9062782d28f4f04f821405d99a.png)
同时每个成长路线对应的板块都有配套的视频提供:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/a91b9e8100834e9291cfcf1695d8cd42.png#pic_center)
因篇幅有限,仅展示部分资料
网络安全面试题
![](https://img-blog.csdnimg.cn/img_convert/80674985176a4889f7bb130756893764.png)
绿盟护网行动
![](https://img-blog.csdnimg.cn/img_convert/9f3395407120bb0e1b5bf17bb6b6c743.png)
还有大家最喜欢的黑客技术
![](https://img-blog.csdnimg.cn/img_convert/5912337446dee53639406fead3d3f03c.jpeg)
**网络安全源码合集+工具包**
![](https://img-blog.csdnimg.cn/img_convert/5072ce807750c7ec721c2501c29cb7d5.png)
![](https://img-blog.csdnimg.cn/img_convert/4a5f4281817dc4613353c120c9543810.png)
**所有资料共282G**,朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》,可以扫描下方二维码领取(如遇扫码问题,可以在评论区留言领取哦)~
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化资料的朋友,可以点击这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**