自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 clickhouse 性能测试

注意:本测试使用的是官网的数据集,由于官网聚合操作太多过滤,所以写了一些没有过滤的聚合操作,本测试属于极限测试,真实业务中的聚合操作肯定会有很多过滤操作的 一.表的创建和数据导入 创建表:必须在每个节点创建表,ddl 没有同步  create database test ; use tes...

2018-09-20 11:26:40

阅读数 11337

评论数 3

原创 clickhouse 部署

一.单机版 sudo apt-key adv --keyserver keyserver.ubuntu.com --recv E0C56BD4    # optional echo "deb http://repo.yandex.ru/clickhouse/deb/stabl...

2018-09-20 10:39:40

阅读数 1721

评论数 0

原创 es 分词器

课程大纲 1、什么是分词器 切分词语,normalization(提升recall召回率) 给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分瓷器 recall,召回率:搜索的时候,增加能够搜索到的结果的数量 c...

2018-08-27 14:35:09

阅读数 2045

评论数 0

原创 es query string

1、query string基础语法 GET /test_index/test_type/_search?q=test_field:test GET /test_index/test_type/_search?q=+test_field:test GET /test_index/test_ty...

2018-08-27 14:28:00

阅读数 727

评论数 0

原创 es 分页搜索 和 deep paging 问题

1.分页搜索语法 GET /_search?size=10 GET /_search?size=10&from=0 GET /_search?size=10&from=20 2.deep paging问题

2018-08-27 14:25:05

阅读数 240

评论数 0

原创 es 搜索多个index和多个type下的数据

/_search:所有索引,所有type下的所有数据都搜索出来 /index1/_search:指定一个index,搜索其下所有type的数据 /index1,index2/_search:同时搜索两个index下的数据 /*1,*2/_search:按照通配符去匹配多个索引 /index1/ty...

2018-08-27 13:59:34

阅读数 8949

评论数 0

原创 es 批量操作—bulk

1、bulk语法 有哪些类型的操作可以执行呢? (1)delete:删除一个文档,只要1个json串就可以了 (2)create:PUT /index/type/id/_create,强制创建 (3)index:普通的put操作,可以是创建文档,也可以是全量替换文档 (4)update:执行的p...

2018-08-24 18:06:59

阅读数 1643

评论数 0

原创 es 批量操作—mget

1、批量查询的好处 就是一条一条的查询,比如说要查询100条数据,那么就要发送100次网络请求,这个开销还是很大的 如果进行批量查询的话,查询100条数据,就只要发送1次网络请求,网络请求的性能开销缩减100倍 2、mget的语法 (1)一条一条的查询 GET /test_index/t...

2018-08-24 18:03:19

阅读数 258

评论数 0

原创 es groovy脚本

1.数据准备 PUT /test_index/test_type/11 { "num": 0, "tags": [] } 2.内置脚本实现 partial update POST /test_index/te...

2018-08-24 17:57:18

阅读数 466

评论数 0

原创 es partial update

1、什么是partial update? PUT /index/type/id,创建文档&替换文档,就是一样的语法 一般对应到应用程序中,每次的执行流程基本是这样的: (1)应用程序先发起一个get请求,获取到document,展示到前台界面,供用户查看和修改 (2)...

2018-08-24 17:22:24

阅读数 54

评论数 0

原创 es 几个重要的底层原理相关概念

1、Elasticsearch对复杂分布式机制的透明隐藏特性 分片机制 shard副本 集群发现机制  shard负载均衡 2、Elasticsearch的垂直扩容与水平扩容 垂直扩容:采购更强大的服务器,成本非常高昂,而且会有瓶颈,假设世界上最强大的服务器容量就是10T,但是当你的总数...

2018-08-24 17:17:54

阅读数 499

评论数 0

原创 es 指定返回哪些field

# Query String GET /ecommerce/product/1?_source=producer,tags # Query DSL GET /ecommerce/product/_search   {   "query": {     &am...

2018-08-24 15:47:45

阅读数 1081

评论数 0

原创 es document id 的两种生成方式

1、手动指定document id PUT /test_index/test_type/2 { "test_content": "my test" } 2、自动生成document id POST /test_...

2018-08-24 15:26:56

阅读数 840

评论数 0

原创 es 常用命令

1.简单的集群管理 GET /_cat/health?v GET /_cat/indices?v 2.CRUD操作 # 增 PUT /ecommerce/product/1 { "name" : "gaolujie yagao...

2018-08-24 14:23:56

阅读数 1017

评论数 0

原创 hadoop小文件过多引起的负载过高

一.场景描述 系统运行一段时间后,总是报负载过高的警告 告警等级: Warning 告警信息: Processor load is too high on hadoopmaster 告警项目: system.cpu.load[all,avg1] 问题详情: Processor...

2018-02-07 11:51:40

阅读数 709

评论数 0

原创 spark 历史和实时任务日志监控

一.spark on yarn historyserver(运行完毕日志)   1.配置yarn日志参数:yarn-site.xml       yarn.log-aggregation-enable     true         yarn.log.serve...

2018-02-01 16:26:47

阅读数 1677

评论数 0

原创 kafka 的 ClosedChannelException

场景: kafka 版本kafka_2.10-0.8.1.1 ,spark任务刚开始正常运行,一段时间后,报下面的错误,但是数据准确性不影响,只是严重拖慢了实时任务   [Stage 46825:=========================================> ...

2017-12-13 11:29:52

阅读数 1407

评论数 0

原创 定时任务的两种方式

定时任务的两种方式 方式一:定时任务 并 打印日志 并 在后台运行 #1.定时任务 30 0 * * *  nohup  sh /home/hduser/projs/gamepublish_performance.sh 2.gamepublish_performance.sh ...

2017-10-10 14:09:42

阅读数 542

评论数 0

原创 kafka添加 partion导致 spark 实时任务数据减少

场景: kafka原有两个分区,添加一个分区后,一直运行的实时的spark任务  数据减少约3分之一   分析: spark 将kafka 的offsite维护在checkpoint 里面,当spark任务运行的时候,给kafka添加新的分区,原来的checkpoint只维护原来的两个分区的 of...

2017-09-14 11:58:35

阅读数 287

评论数 0

原创 hive索引数据 mysql数据迁移

需求:新建的集群,需要把原集群的hive迁移到新的集群,hdfs数据已经迁移,下面是迁移mysql索引数据的方法 注意: 本方法中mysql是yum安装的,hive索引数据的账户 :hive,密码:hive   1.1 备份原集群的数据 [root@localhost ~]# cd /var/l...

2017-08-26 16:06:50

阅读数 186

评论数 0

提示
确定要删除当前文章?
取消 删除