![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 50
JTZ001
大数据工程师
展开
-
ElasticSearch和Mysql数据同步
1、使用easy-sync实现ES和Mysql数据同步通过binlog实时将mysql同步到elasticsearch。支持完全同步和增加同步。项目下载地址: https://github.com/cehome-com/easy-sync?spm=a2c4e.11153940.blogcont617770.14.3dcb1ef63OACwm1.1 轻松同步通过binlog和kafka实时将mysql同步到elasticsearch。使用方便。支持多任务并添加新任务而无需重启。顺利改变索原创 2021-04-25 16:57:35 · 1544 阅读 · 0 评论 -
ElasticSearch全文检索图书案例
本章内容概述1、ElasticSearch数据准备2、通过Java进行全文检索3、效果展示1、ElasticSearch添加数据1.1 创建索引PUT /libary{ "settings": { "number_of_shards": 3, "number_of_replicas": 0 }, "mappings": { "book":{ "properties":{ "name":{ "type":"te原创 2021-04-25 15:12:39 · 888 阅读 · 9 评论 -
ElasticSearch在Java中的高级应用2
本章内容概述1、组合查询2、桶聚合1、组合查询// 组合查询@Testpublic void boolQuery() throws UnknownHostException { // 指定ES集群 Settings settings = Settings.builder().put("cluster.name", "myes").build(); // 创建访问es服务器的客户端 TransportClient client = new PreBuiltTransportClien原创 2021-04-25 15:09:24 · 181 阅读 · 0 评论 -
ElasticSearch在Java中的高级应用1
本章内容概述1、各种query查询2、聚合查询1、各种query查询range限定范围查询//查询出生年月在1980-01-22 到 1990-12-12之间的用户RangeQueryBuilder builder = QueryBuilders.rangeQuery("birthday") .from("1980-01-22") .to("1990-12-12") .format("yyyy-MM-dd");Search原创 2021-04-25 15:08:26 · 183 阅读 · 0 评论 -
ElasticSearch在Java中的应用3
本章内容概述1、查询删除2、查询所有3、match查询4、multimatch查询5、term查询和terms查询1、查询删除把符合查询条件的删除:也就是说删除符合指定条件的,我们之前的删除都是根据id删除,这个操作可以实现更多可能。把名字中带"明"的都删除//从ES中删除满足条件的文档 @Test public void deletebyQuery() throws UnknownHostException { //指定ES集群 Settings setting原创 2021-04-25 15:03:13 · 116 阅读 · 0 评论 -
ElasticSearch在Java中的应用2
本章内容概述1、mget批量查询2、bulk批量操作1、mget批量查询//mget根据id批量查询数据 @Test public void multiquery() throws UnknownHostException { //指定ES集群 Settings settings = Settings.builder().put("cluster.name", "myes").build(); //创建访问es服务器的客户端 TransportClient cli原创 2021-04-25 15:02:19 · 101 阅读 · 0 评论 -
ElasticSearch在Java中的应用1
本章内容概述1、在Java应用中实现查询文档2、在Java应用中实现添加文档3、在Java应用中实现删除文档4、在Java应用中实现更新文档1、在Java应用中实现查询文档1、创建SpringBoot工程2、创建工程的时候,勾选需要的依赖3、在src/test/demo下面的com.example.demo下面的ElasticSearchTestApplicationTests.java中写测试程序根据id查询指定数据//从ES中查询数据 @Test public vo原创 2021-04-25 15:00:57 · 324 阅读 · 4 评论 -
ElasticSearch高级查询
本章内容概述1、布尔查询2、聚合查询1、布尔查询Bool Query Elasticsearch在2.x版本的时候把filter查询给摘掉了,因此在query dsl里面已经找不到filter query了。其实es并没有完全抛弃filter query,而是它的设计与之前的query太重复了。因此直接给转移到了bool查询中。 Bool查询现在包括四种子句,must,filter,should,must_not。1.1 为什么filter会快? 看上面的流程图就能很明显的看到,fi原创 2021-04-25 14:58:15 · 401 阅读 · 0 评论 -
ElasticSearch中文基本查询
本章内容概述1、基本查询1、基本查询1.1 数据准备创建索引PUT /lib3{ "settings": { "number_of_shards": 3, "number_of_replicas": 0 }, "mappings": { "user":{ "properties":{ "name":{ "type":"text", "analyzer":"ik_max_word"原创 2021-04-23 16:20:08 · 760 阅读 · 0 评论 -
ElasticSearch静态映射
本章内容概述1、核心数据类型2、复杂数据类型3、地理数据类型4、专门数据类型1、核心数据类型1.1 字符串类型 - string(不再支持)1.1.1 文本类型 - text[默认] 当一个字段需要用于全文搜索(会被分词), 比如产品名称、产品描述信息, 就应该使用text类型. text的内容会被分词, 可以设置是否需要存储: "index": "true|false". text类型的字段不能用于排序, 也很少用于聚合. 使用示例:PUT website{原创 2021-04-23 16:18:02 · 194 阅读 · 0 评论 -
中文分词器 IK
本章内容概述1、中文分词器IK插件介绍2、Linux环境安装中文分词器IK插件3、自定义扩展分词器文件4、elasticsearch文档映射概述1、中文分词器IK插件介绍1.1 分词器简介 在对文档(Document)中的内容进行索引前, 需要对文档的内容使用分析对象(分词器)进行分词. 分词器:从一串文本中切分出来一个个的词条,并对每个词条进行标准化。 包含三部分: character filter: 分词之前的预处理,过滤掉HTML标签,特殊符号转换等;原创 2021-04-23 16:13:39 · 1297 阅读 · 0 评论 -
ElasticSearch英文基本查询
本章内容概述1、基本查询(QUERY查询)2、结构化查询1、基本查询(QUERY查询)1.1 数据准备先插入数据,以备测试使用### 创建索引PUT /lib3PUT /lib3/user/1{ "name":"zhaoliu", "address":"hei long jiang tie ling shi", "age":50, "birthday":"1970-12-12", "interests":"hejiu,duanlian,lvyou"}PUT原创 2021-04-23 16:01:25 · 380 阅读 · 0 评论 -
ElasticSearch底层实现原理
本章内容概述1、9200端口号与9300端口号区别2、elasticsearch倒排索引原理1、9200端口号与9300端口号区别 9300端口: ES节点之间通讯使用 9200端口: ES节点 和 外部 通讯使用 9300是TCP协议端口号,ES集群之间通讯端口号 9200端口号,暴露ES RESTful接口端口号 调用RESTful查看文档:http://192.168.34.64:9200/newcapec/user/1{"_index":"newcapec","_t原创 2021-04-09 11:46:51 · 597 阅读 · 0 评论 -
Springboot整合ElasticSearch
本章内容概述1、STS简介2、STS安装3、Springboot整合ES4、配置Maven镜像5、Postman的介绍及安装1、STS简介 如果你是一个喜欢用spring的人,你可能会在欣赏spring的强大功能外,对其各样的配置比较郁闷,尤其是相差较大的版本在配置文件方面会存在差异,当然你可以去花不少的时间去网上查找相关的资料,当你准备使用更高版本spring的时候,但这无异会让人感觉烦恼。spring其实也早就意识到了这一点,并针对此给出了很好的解决方法,那就是在基于Eclipse的原创 2021-04-09 10:14:04 · 600 阅读 · 0 评论 -
ElasticSearch版本控制
本章内容概述1、版本控制概述2、处理冲突3、乐观并发控制详解4、使用外部版本控制系统1、版本控制概述 版本控制是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理,是软件配置管理的核心思想之一。 为了保证数据在多线程操作下的准确性,ElasticSearch采用了版本控制。2、处理冲突 当使用index 更新文档的时候,我们读取原始文档,做修改,然后将整个文档(whole document)一次性重新索引。最近的索引请求会生效——Elasticsearch中只存储原创 2021-04-08 11:00:58 · 358 阅读 · 0 评论 -
Kibana可视化界面操作
本章内容概述1、Kibana可视化界面介绍2、Kibana的安装和配置3、Kibana增删改查文档1、Kibana可视化界面介绍 Kibana是一个开源的分析和可视化平台,设计用于和Elasticsearch一起工作。 你用Kibana来搜索,查看,并和存储在Elasticsearch索引中的数据进行交互。 你可以轻松地执行高级数据分析,并且以各种图标、表格和地图的形式可视化数据。 Kibana使得理解大量数据变得很容易。它简单的、基于浏览器的界面使你能够快速创建和共享动态仪表板,原创 2021-04-08 10:12:27 · 5846 阅读 · 0 评论 -
ElasticSearch基础知识
本章内容概述1、ElasticSearch介绍2、ElasticSearch应用场景3、ElasticSearch存储结构1、ElasticSearch介绍1.1 ElasticSearch 概述 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。 Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索原创 2021-04-08 09:32:34 · 149 阅读 · 0 评论 -
Hadoop简介
1. Hadoop 简介“在古时候,人们用牛来拉重物。当一头牛拉不动一-根圆木时,人们从来没有考虑过要想方设法培育出一种更强壮的牛。同理,我们也不该想方设法打造什么超级计算机,而应该千方百计综合利用更多计算机来解决问题。” – 葛蕾丝●霍珀(Grace Hopper)"1.1 数据大爆炸时代我们生活在这个数据大爆炸的时代,很难估算全球电子设备中存储的数据总共有多少。国际数据公司(IDC)曾经发布报告称,2013年数字世界(digitaluniverse)项目统计得出全球数据总量为4.4原创 2021-04-02 13:30:05 · 439 阅读 · 0 评论 -
Flume综合介绍
第1章 Flume 概述1.1 Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。1.2 Flume 基础架构Flume 组成架构如图所示:下面我们来详细介绍一下 Flume 架构中的组件:1.2.1 AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3原创 2021-04-02 11:58:00 · 223 阅读 · 0 评论 -
Kafka集群部署指南
一、前言1、Kafka简介Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hadoop等)Kafka最核心的最成熟的还是他的消息引擎,所以Kafka大部分应用场景还是用来作为消息队列削峰平谷。另外,Kafka也是目前性能最好的消息中间件。2、Kafka架构在Kafka集转载 2021-02-19 17:20:08 · 207 阅读 · 0 评论 -
Centos ZooKeeper集群部署指南
1、ZooKeeper简介ZooKeeper是一个开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现。ZooKeeper为分布式应用提供一致性服务,提供的功能包括:分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)、分布式锁(Distributed Lock)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以单机模式安装运行,不过它转载 2021-02-19 17:13:43 · 150 阅读 · 0 评论 -
大数据组件介绍
大数据的方向梳理大数据出现的背景:4V特性(数据量,数据种类,数据处理速度,价值密度低)集群发展中,有两类比较常见的问题:水平瓶颈,单点故障1.平台侧HDFS解决存储 yarn 技术框架 Zookeeper分布式协调 ,Kerberos&LDAP负责安全HDFS一、主从结构主节点NameNode(单点故障用主备机制解决,水平瓶颈用联邦机制解决) 存储元数据fsimage元数据在内存,同时磁盘也会保存一份,磁盘保存元数据fsimage 的动作由备份的完成从节点DataNode原创 2021-02-19 16:18:28 · 1214 阅读 · 1 评论