大数据系列_超超超超子的博客-CSDN博客

大数据系列

关注

文章平均质量分 52

Elastic，flink，hive，hadoop，spark

关注数：文章数：15 文章阅读量：34373 文章收藏量：47

作者: 超超超超子

这个作者很懒，什么都没留下…

展开

专栏收录文章

ElasticSearch 7.X系列之：script批量操作_update_by_query

ElasticSearch根据条件使用script批量更新update_by_query{ "script": { "source": "ctx._source.count++", "lang": "painless" }, "query": { "term": { "user.id": "kimchy" } }}ElasticSearch根据条件批量删除数据posthttp://serverhost:9200/index/

原创 2022-05-29 12:03:05 · 1538 阅读 · 0 评论
ElasticSearch 7.X系列之：查询分析索引磁盘使用空间_disk_usage

POST /tjecommodity-20220208/_disk_usage?run_expensive_tasks=trueGET /_cat/shards

原创 2022-05-17 10:48:53 · 1648 阅读 · 2 评论
ElasticSearch 7.X系列之：Centos7中常见启动报错以及解决方法

Elasticsearch启动报错解决方法1、机器内剩余内存较少，会启动失败，并且有类似如下报错：Java HotSpot(TM) 64-Bit Server VM warning:INFO: os::commit_memory(0x000000008a660000, 1973026816, 0) failed; error='Cannot allocate memory' (errno=12)这是因为es的jvm参数-Xmx和-Xms默认都为2G修改config下的jvm.option文件# v

原创 2022-05-17 10:42:31 · 1508 阅读 · 0 评论
ElasticSearch 7.X系列之：Shell自动安装配置Elasticseach,设置开机自启动

#获取内存信息echo -e "\033[36m ---Start getting memory information... \033[0m"mem_info=$(free -m | awk '/Mem/ {printf "%.0f\n",$2/1024/2 }')if [ -z "$mem_info" ];then echo " Did not get the memory info,aborting" exit 1else if [ "$mem_i.

原创 2022-05-17 10:40:18 · 375 阅读 · 0 评论
ElasticSearch 7.X系列之：RestHighLevelClient 多条件查询

//使用 MultiSearch Api 在一个http请求中并行执行多个Search请求。 public static void multiSearch() { var client = getClient(); MultiSearchRequest msRequest = new MultiSearchRequest(); SearchRequest request1 = new SearchRequest("movies"); SearchSourceBuilder builde..

原创 2022-05-17 10:39:23 · 4895 阅读 · 4 评论
ElasticSearch 7.X系列六：Mapping及相关的设置

mapping类似于数据库中的schema，作用如下:1. 定义索引中的字段类型；2. 定义字段的数据类型，例如：布尔、字符串、数字、日期.....3. 字段倒排索引的设置mapping定义设置##获取索引GET /_cat/indices##设置索引mappingPUT users{ "mappings": { // define your mappings here }}定义mapping的建议方式: 写入一个样本文档到临时索引中，ES会自动生成ma

原创 2021-11-16 10:16:33 · 1220 阅读 · 1 评论
ElasticSearch 7.X系列四：Analysis与ik分词器

analysis(只是一个概念)，文本分析是将全文本转换为一系列单词的过程，也叫分词。 analysis是通过analyzer(分词器)来实现的，可以使用Elasticsearch内置的分词器，也可以自己去定制一些分词器。除了在数据写入的时候进行分词处理，那么在查询的时候也可以使用分析器对查询语句进行分词。待补充...

原创 2021-11-16 10:15:45 · 723 阅读 · 0 评论
ElasticSearch 7.X系列五：Request Body的各类查询搜索

深入es查询es主要分为两类查询，term查询和全文查询termterm是表达语义的最小单位，在搜索的时候基本都要使用到term。 term查询的种类有：Term Query、Range Query等。在ES中，Term查询不会对输入进行分词处理，将输入作为一个整体，在倒排索引中查找准确的词项。我们也可以使用 Constant Score 将查询转换为一个filter,避免算分，利用缓存，提高查询的效率。term查询不会做任何的分词处理，match做分词处理后进行查询te

原创 2021-11-16 10:14:53 · 1011 阅读 · 0 评论
ElasticSearch 7.X系列三：URI查询

常用参数q---查询字符串sort---排序执行。可以是fieldName或 fieldName:asc/ 的形式fieldName:desc。fieldName可以是文档中的实际字段，也可以是特殊_score名称，表示基于分数的排序。可以有几个sort参数（顺序很重要）。from---从命中的索引开始返回。默认为0。size---要返回的点击次数。默认为10。_source_include---查询包含某些source字段的文档。_source_exclude---查询不包含某些s

原创 2021-11-16 10:13:53 · 381 阅读 · 0 评论
ElasticSearch 7.X系列二：Es的基本curd命令

查看es的所有索引：GET _cat/indices查看某个索引的数据GET index/_search例：查看索引有多少条数据：GET index/_count例：查询指定索引id的数据GET index/_doc/id索引内添加数据：(未指定id)POST index/_doc{"a":111,"b":222}索引内添加数据：(指定id)(注意：若id相同，则会覆盖掉原数据)POST index/_doc/i

原创 2021-11-16 10:12:36 · 827 阅读 · 0 评论
ElasticSearch 7.X系列一：Es的索引，文档，map，DSL等概念

took：时间totol：查命中的数据，默认是一万max_score:算分（暂时可以忽略）hist:内每一个json都是为命中的一条数据index：索引(可以类比为一个关系型数据的数据表)type：文档类型（在7.0后被固定为_doc）id：id，唯一性，score：算分source：实际的数据本身mapping：是es每一个文档的约束信息。例如属性的类型，是否能被索引等例：DSL是es的查询语言例：...

原创 2021-11-16 10:13:04 · 972 阅读 · 0 评论
logstash 7.X系列之：logstash采集csv文件并存储至es

input { file { type => "csv_log_1" path => ["D:/date/rs-hf.csv"] start_position => "beginning" codec => plain{ charset=>"UTF-8" } }} filter { csv { separator => "," columns => ["city","h.

原创 2021-09-29 16:10:16 · 947 阅读 · 1 评论
zeek系列之：流量分析流量数据采集流量探针利器zeek

什么是zeekZeek是一个被动的开源网络流量分析器。许多运营商将Zeek用作网络安全监视器（NSM），以支持对可疑或恶意活动的调查。Zeek还支持安全领域以外的各种流量分析任务，包括性能评估和故障排除。新用户从Zeek获得的第一个好处是描述网络活动的大量日志。这些日志不仅包括网络上看到的每个连接的全面记录，还包括应用程序层记录。这些包括所有HTTP会话及其请求的URI，密钥标头，MIME类型和服务器响应，带回复的DNS请求，SSL证书，SMTP会话的关键内容，以及更多。默认情况下，Zeek将所有这.

转载 2021-08-11 14:14:34 · 4201 阅读 · 0 评论
zeek系列之：流量数据采集流量探针zeek-脚本入门

zeek解析pcap流量文件解析pcap文件zeek -C -r /home/1.pcapjson格式解析pcap文件到当前目录下zeek -C -r /home/1.pcap LogAscii::use_json=T注意：需要zeek运行状态下zeek脚本概述概述扩展名为.zeek默认目录：share/zeek放在share/zeek/site的不会在升级时被覆盖或者修改zeek生成的事件可以参考：base/bif/event.bif.zeek*.bif是z

原创 2021-08-11 10:50:12 · 3671 阅读 · 0 评论
zeek系列之：流量数据采集流量探针zeek安装部署

zeek介绍Zeek是一个被动的开源网络流量分析器。它主要是一种安全监视器，可深入检查链接上的所有流量以查找可疑活动的迹象。使用Zeek最直接的好处是生成大量日志文件。这些日志不仅包括对网络上每个连接的全面记录，还包括应用程序层记录，例如所有HTTP会话及其请求的URI，密钥标头，MIME类型和服务器响应；带回复的DNS请求；SSL证书；SMTP会话的关键内容；以及更多。默认情况下，Zeek将所有这些信息写入结构合理的制表符分隔的日志文件中，这些文件适用于使用外部软件进行后处理。另外，在名称上，3.

原创 2021-08-11 10:18:17 · 10460 阅读 · 0 评论

大数据系列

作者: 超超超超子

ElasticSearch 7.X系列之：script批量操作_update_by_query

ElasticSearch 7.X系列之：查询分析索引磁盘使用空间_disk_usage

ElasticSearch 7.X系列之：Centos7中常见启动报错以及解决方法

ElasticSearch 7.X系列之：Shell自动安装配置Elasticseach,设置开机自启动

ElasticSearch 7.X系列之：RestHighLevelClient 多条件查询

ElasticSearch 7.X系列六：Mapping及相关的设置

ElasticSearch 7.X系列四：Analysis与ik分词器

ElasticSearch 7.X系列五：Request Body的各类查询搜索

ElasticSearch 7.X系列三：URI查询

ElasticSearch 7.X系列二：Es的基本curd命令

ElasticSearch 7.X系列一：Es的索引，文档，map，DSL等概念

logstash 7.X系列之：logstash采集csv文件并存储至es

zeek系列之：流量分析流量数据采集流量探针利器zeek

zeek系列之：流量数据采集流量探针zeek-脚本入门

zeek系列之：流量数据采集流量探针zeek安装部署