1 搜索是什么
概念:用户输入想要的关键词,返回含有该关键词的所有信息。
场景:
1互联网搜索:谷歌、百度、各种新闻首页
2 站内搜索(垂直搜索):企业OA查询订单、人员、部门,电商网站内
部搜索商品(淘宝、京东)场景。
2 数据库做搜索弊端
2.1站内搜索(垂直搜索):数据量小,简单搜索,可以使用数据库
问题出现:
l 存储问题。电商网站商品上亿条时,涉及到单表数据过大必须拆分表,数据库磁盘占用过大必须分库(mycat)。
l 性能问题:解决上面问题后,查询“笔记本电脑”等关键词时,上亿条数据的商品名字段逐行扫描,性能跟不上。
l 不能分词。如搜索“笔记本电脑”,只能搜索完全和关键词一样的数据,那么数据量小时,搜索“笔记电脑”,“电脑”数据要不要给用户。
2.2互联网搜索,肯定不会使用数据库搜索。数据量太大。PB级
我们可以使用搜索引擎来解决数据库搜索的问题:
搜索也是一款数据库,搜索可以进行分词搜索---搜索速度非常快
3 常见的搜索引擎
ElasticSearch与Solr比较
1.当单纯的对已有数据进行搜索时,Solr更快2. 当实时建立索引时,Solr会产生io阻塞,查询性能较差,ElasticSearch具有明显的优势
3. 随着数据量的增加,Solr的搜索效率会变得更低,而ElasticSearch却没有明显的变化
总结
1、es基本是开箱即用(解压就可以用!)【南京】 ,非常简单。Solr安装略微复杂一丢丢!
2、Solr 利用Zookeeper进行分布式管理,而Elasticsearch<mark>自身带有分布式协调管理功能</mark>。
3、Solr 支持更多格式的数据,比如JSON、XML、 CSV ,而Elasticsearch仅支持json文件格式。
4、Solr 官方提供的功能更多,而Elasticsearch本身更注重于核心功能,高级功能多有第三方插件提供,例如图形化界面需要kibana友好支撑
5.Solr 查询快,但更新索引时慢(即插入删除慢) ,用于电商等查询多的应用;
ES建立索引快(即查询慢) ,即实时性查询快,用于facebook新浪等搜索。
Solr是传统搜索应用的有力解决方案,但Elasticsearch更适用于新兴的实时搜索应用。
6、Solr比较成熟,有一个更大,更成熟的用户、开发和贡献者社区,而Elasticsearch相对开发维护者较少,更新太快,学习使用成本较高。
4 Elasticsearch 是什么
The Elastic Stack, 包括 Elasticsearch【搜索,分析】、 Kibana【可视化】、 Beats 和 Logstash【数据的搜集】(也称为 ELK Stack)。能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。
Elaticsearch,简称为 ES, ES 是一个开源的高扩展的分布式全文搜索引擎, 是整个 ElasticStack 技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理 PB 级别的数据。
5 Elasticsearch的使用场景
国外:
1 维基百科,类似百度百科,“网络七层协议”的维基百科,全文检索,高亮,搜索推荐2 Stack Overflow(国外的程序讨论论坛),相当于程序员的贴吧。遇到it问题去上面发帖,热心网友下面回帖解答。
3 GitHub(开源代码管理),搜索上千亿行代码。
4 电商网站,检索商品
5 日志数据分析,logstash采集日志,ES进行复杂的数据分析(ELK技术,elasticsearch+logstash+kibana)
6 商品价格监控网站,用户设定某商品的价格阈值,当低于该阈值的时候,发送通知消息给用户,比如说订阅《java编程思想》的监控,如果价格低于27块钱,就通知我,我就去买。
7 BI系统,商业智能(Business Intelligence)。大型连锁超市,分析全国网点传回的数据,分析各个商品在什么季节的销售量最好、利润最高。成本管理,店面租金、员工工资、负债等信息进行分析。从而部署下一个阶段的战略目标。
国内:
1 百度搜索,第一次查询,使用es。
2 OA、ERP系统站内搜索。
6 倒排索引
倒排索引。数据存储时,经行分词建立term索引库。见画图。
分词表
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的
每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记
录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引
(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排
文件(inverted file)
7 Elasticsearch安装
1、安装JDK,至少1.8.0_73以上版本,验证:java -version。
2、下载和解压缩Elasticsearch安装包,查看目录结构。
Download Elasticsearch | ElasticDownload Elasticsearch or the complete Elastic Stack (formerly ELK stack) for free and start searching and analyzing in minutes with Elastic.https://www.elastic.co/cn/downloads/elasticsearch下载地址:https://www.elastic.co/cn/downloads/
历史版本下载:https://www.elastic.co/cn/downloads/past-releases/
解压后,进入 bin 文件目录,点击 elasticsearch.bat 文件启动 ES 服务 。
注意: 9300 端口为 Elasticsearch 集群间组件的通信端口, 9200 端口为浏览器访问的 http协议 RESTful 端口。
打开浏览器,输入地址: http://localhost:9200,测试返回结果,返回结
果如下:
{
"name" : "DESKTOP-LNJQ0VF",
"cluster_name" : "elasticsearch",
"cluster_uuid" : "nCZqBhfdT1-pw8Yas4QU9w",
"version" : {
"number" : "7.8.0",
"build_flavor" : "default",
"build_type" : "zip",
"build_hash" :
"757314695644ea9a1dc2fecd26d1a43856725e65",
"build_date" : "2020-06-14T19:35:50.234439Z",
"build_snapshot" : false,
"lucene_version" : "8.5.1",
"minimum_wire_compatibility_version" : "6.8.0",
"minimum_index_compatibility_version" : "6.0.0-
beta1"
},
"tagline" : "You Know, for Search"
}
8 Windows安装Kibana
1、kibana是es数据的前端展现,数据分析时,可以方便地看到数据。作为开发人员,可以方便访问es。
历史版本下载:Past Releases of Elastic Stack Software | Elastic
2、下载,解压kibana。
3、启动Kibana:bin\kibana.bat4、浏览器访问 http://localhost:5601 进入Dev Tools界面。像plsql一样支
持代码提示。
5、发送get请求,查看集群状态GET _cluster/health。相当于浏览器访
问。ES中常见的概念
Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。 为了方便大家理解,我们将 Elasticsearch 里存储文档数据和关系型数据库MySQL 存储数据的概念进行一个类比
ES 里的 Index 可以看做一个库,而 Types 相当于表, Documents 则相当于表的行。这里 Types 的概念已经被逐渐弱化, Elasticsearch 6.X 中,一个 index 下已经只能包含一个type, Elasticsearch 7.X 中, Type 的概念已经被删除了。