大数据
文章平均质量分 65
蒜蓉粉丝蒸扇贝
这个作者很懒,什么都没留下…
展开
-
Elasticsearch安装ik分词
elasticsearch是自带中文分词的, 但是基本上是每个单字的分, 效果不好。medcl大神的ik分词, 是专门的中文分词。更多信息,可参考 https://github.com/medcl/elasticsearch-analysis-ik1. 安装ik插件可以从 https://github.com/medcl/elasticsearch-analysis-ik/releas原创 2016-04-27 11:42:54 · 1441 阅读 · 0 评论 -
Elasticsearch的script使用
从ES 1.4.3以后, inline script默认是被禁止的,但是可以使用file script的模式。{"query":{ "term": { "content": "中国" } }, "script_fields": { "test1": { "script": "doc['content']+原创 2016-04-25 17:21:51 · 29988 阅读 · 0 评论 -
openmpi python 环境搭建及使用
1. open-mpi 是什么open-mpi的官方定义:A High Performance Message Passing Library(from https://www.open-mpi.org/)MPI是Message Passing Interface的简称,也就是消息传递。消息传递指的是并行执行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进程之间的信原创 2016-09-24 12:25:18 · 4442 阅读 · 0 评论 -
Elasticsearch中的doc是咋回事
doc 存在的背景:ES的inverted indices结构,使得查找包含某个term的文档的操作十分方便和高效。例如 某个索引下的倒排索引结构如下:Term Doc_1 Doc_2 Doc_3------------------------------------brown | X | X |dog | X |原创 2016-08-15 14:10:21 · 1631 阅读 · 0 评论 -
Logstash的数据类型和基本语法
From:http://www.ttlsa.com/elk/elk-logstash-configuration-syntax/logstash支持的数据类型有:array数组可以是单个或者多个字符串值。path => [ "/var/log/messages", "/var/log/*.log" ]path => "/data/mysql/mysql.log"转载 2016-08-11 11:47:44 · 26425 阅读 · 2 评论 -
Elasticsearch数据如何备份
在ES中是有replica的存在的, 默认, 一个索引会分成5个shard,每个shard有一个replica.replica机制使得ES有较好的容错机制,保证了数据的安全。但是我们仍然觉得数据的备份是很有必要的(在replica之上的)。ES提供了_snapshot的API,来支持数据的快照。snapshot支持多种文件系统,e.g. Shared filesystem, such原创 2016-08-02 14:53:58 · 1656 阅读 · 0 评论 -
Elasticsearch在生产环境中的优化
Elasticsearch在生产环境中, 需要做一系列的优化, 以达到最佳的性能。虽然网上有些优化的建议和经验, 但却不一定有效,下面就结合官网上的介绍和网上的一些指导加上自己在使用过程中的实际处理, 给出更加有说服力的一些意见和建议。官网的关于生产环境的部署的建议,https://www.elastic.co/guide/en/elasticsearch/guide/current/depl原创 2016-07-22 22:18:15 · 4196 阅读 · 0 评论 -
ELK之Elasticsearch介绍及在搜索中的使用
ELK: Elasticsearch + Logstash + KibanaElasticsearch: 是一个分布式的、实时全文搜索及分析引擎;检索性能高效是最大的特色。Logstash: 是一个数据收集器,有丰富的插件(input/filter/output)。Kibana: 是一个基于Elasticsearch的web展示平台。Elasticsea原创 2016-06-06 15:39:50 · 4553 阅读 · 0 评论 -
Elasticsearch的DSL之比较重要的几个查询语句
1. match_all { "match_all":{}} 匹配所有的, 当不给查询条件时,默认。2. match进行full text search或者exact value(非string字段或not_analyzed的字段),进行匹配3. multi_match同时对多个字段进行同样的match{ "multi_match":{原创 2016-04-21 17:06:17 · 8298 阅读 · 0 评论 -
Elasticsearch的DSL之query and filter
在Elasticsearch的DSL中, 有两个概念需要搞清楚, query 和 filter, 对ES的检索效率是很有影响的。下面就来搞清楚这两个关键字的具体函数。query context: 回答的是这个文档在多大程度上匹配查询语句(How well does this document match this query clause?),会计算出一个分数_score。原创 2016-04-21 15:20:45 · 4959 阅读 · 0 评论 -
Elasticsearch的DSL之 term and match
记录学习ES的DSL的一些比较重要的概念和方法。term VS match首先要说的是, 一个doc进入ES被索引,哪些字段(fields)被索引是可以自定义的。 默认,ES会对所有的fields进行索引。PUT /my_index{ "mappings": { "my_type": { "properties": { "sta原创 2016-04-21 11:23:33 · 3202 阅读 · 0 评论 -
elasticsearch的3个基本问题之性能优化
Elasticsearch的安装是比较简单方便的, 参考官方文档, 很容易。要实现高的QPS, 是需要一些优化的。1. java程序的优化; export ES_HEAP_SIZE=内存的1/22. swap off; sudo swapoff -a3. 非SSD磁盘, 添加 index.merge.scheduler.max_thread_coun原创 2016-04-20 18:56:41 · 3308 阅读 · 0 评论 -
elasticsearch的3个基本问题之读取数据
如何从ES读取数据,包括两种方式,直接获取和通过搜索获取1. 直接获取GET index/type/ID的方式可以直接获取到某个index下的某个type的,文档ID是ID的doc。e.g.curl -XGET http://10.19.26.43:9200/nats-log-2016-04-20/logs/AVQvYyK6aK8LxcWQ324fand the r原创 2016-04-20 18:55:54 · 1606 阅读 · 0 评论 -
Elasticsearch入门的3个基本问题
elasticsearch(以下简称ES),的3个基本问题。1. ES 如何写入输入?2. 如何从ES读取数据?3. ES的性能优化1. 如何写入数据到ES?ES使用了2个端口9200和9300(默认),9200负责HTTP的请求,即REST apis。我们可以REST api将数据写入ES. 例如, 使用curl命令即可实现一个写入操作。curl -XPUT ht原创 2016-04-20 10:33:38 · 695 阅读 · 0 评论 -
logstash的http output配置
input { jdbc { # mysql jdbc connection string to our backup databsejdbc_connection_string => "jdbc:mysql://ip:port/database?zeroDateTimeBehavior=convertToNull" # the user we wish to ex...原创 2018-06-04 19:18:02 · 4699 阅读 · 0 评论