ASIA_kobe-CSDN博客

转载如何为logstash+elasticsearch配置索引模板?

在使用logstash收集日志的时候，我们一般会使用logstash自带的动态索引模板，虽然无须我们做任何定制操作，就能把我们的日志数据推送到elasticsearch索引集群中，但是在我们查询的时候，就会发现，默认的索引模板常常把我们不需要分词的字段，给分词了，这样以来，我们的比较重要的聚合统计就不准确了：举个例子，假如有10台需要的监控的机器，他们的机器名如下： Ja

2016-04-19 18:15:15 14046

转载 Spark 调试

1概述针对调试，根据不同的调试对象可以分为两类：1、应用程序的调试。2、框架源码的调试。在IDE中调试时采用的方法也对应有两种：1、本地调试：可以简单理解为调试与被调试对象之间不需要通过通信的方式执行。2、远程调试。通常这两种方式都是可用的，只是在某些情况下，当被调试对象部署在远程机器节点中，而我们的调试工

2016-04-19 09:03:09 4896 1

转载 Spark 提供的概率与统计算法 - 基本统计算法

spark-mllib 使用到了Breeze线性代数包，Breeze 采用了 metlib-java包来优化数字处理，但是由于版权问题，Breeze 中缺省不包含 netlib-java 的 native proxy，需要在项目中自行引用。 compile "org.apache.spark:spark-mllib_${scalaMajorVersion}:${s

2016-04-16 09:56:33 9108 4

转载 Git使用详细教程

一：Git是什么？　　Git是目前世界上最先进的分布式版本控制系统。　　二：SVN与Git的最主要的区别？　　SVN是集中式版本控制系统，版本库是集中放在中央服务器的，而干活的时候，用的都是自己的电脑，所以首先要从中央服务器哪里得到最新的版本，然后干活，干完后，需要把自己做完的活推送到中央服务器。集中式版本控制系统是必须联网才能工作，如果在局域网还可以，带宽够大，速度够快，

2016-04-14 15:23:25 492

转载 45倍加速Spark的处理效率？！

Spark代表着下一代大数据处理技术，并且，借着开源算法和计算节点集群分布式处理，Spark和Hadoop在执行的方式和速度已经远远的超过传统单节点的技术架构。但Spark利用内存进行数据处理，这让Spark的处理速度超过基于磁盘的Hadoop 100x 倍。但Spark和内存数据库Redis结合后可显著的提高Spark运行任务的性能，这源于Redis优秀的数据结构和执行过程，从而减小数据

2016-04-14 08:57:34 2628

转载 StreamDM：基于Spark Streaming、支持在线学习的流式分析算法引擎

大数据分析按照模型是否在线学习可以分为离线学习（Offline Learning））和在线学习（Online Learning）两大方式，对应的数据处理模式分别为批处理（Batch Mode）分析和流处理（Streaming）分析。在实际应用中，存在连续不断的海量、高速的流数据，这些场景下，数据通常无法全部保存，只能在通过系统时进行一次性分析处理，流数据分析平台可以发挥重要作用。Spark Str

2016-04-14 08:54:16 2327

转载美团实例详解机器学习如何解决问题

前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践，介绍机器学习在解决工业界问题的实战中所需的基本技术、经验和技巧。本文主要结合实际问题，概要地介绍机器学习解决实际问题的整个

2016-04-07 09:01:55 928

转载 Logstash 入门教程 -配置案例

转自：http://corejava2008.iteye.com/blog/2215591介绍一个详细案例，讲述如何配置读取Apache日志，Syslog并根据自定义条件进行过滤和输出。手工输入并解析数据LS中可以通过Filter针对数据进行切片切块等操作，解析，装换，组装等等。。Java代码 input { stdin { } } #控制台输

2016-04-06 19:03:08 4667

原创 hadoop启动后，长久不用，无法关闭

上次配好了hadoop的环境，已经大概过去一周了，查看hadoop的运行情况：上次配好了hadoop的环境，已经大概过去一周了，查看hadoop的运行情况：在master节点上查看jps状态：执行停止命令的时候发现下面情况：在网上查了一些资料觉得下面的解释比较靠谱：出现这个问题的最常见原因是hadoop在stop的时

2016-04-05 20:14:06 2911

转载 Flume中的HDFS Sink配置参数说明

关键字：flume、hdfs、sink、配置参数转自：http://lxw1234.com/archives/2015/10/527.htmFlume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。channeltypehdfspath写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/

2016-03-30 13:29:14 11822 1

原创 Flume-ng 1.6.0安装、配置与使用

1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG，进行了架构重构，并且现在NG版本完全不兼容原来的OG版本。经过架构重构后，Flume NG更像是一个轻量的小工具，非常简单，容易适应各种方式日志收集，并支持failov

2016-03-29 20:59:25 7252

转载 Flume Source对多行的处理

ExecSource会readLine()读取日志中的每一行，把其作为每一个flume event的body放进去，这对于大部分这种每行就可以结束的日志记录，是完全可以的：122016-03-18 17:53:48,374 INFO namenode.FSNamesystem (FSNamesystem.java:listCorruptFileBlocks(72

2016-03-29 09:46:11 5456 1

转载实时日志收集-查询-分析系统(Flume+ElasticSearch+Kibana)

实时日志收集，查询，分析系统设计方案：Flume（日志收集） +　ElasticSearch（日志查询）+ Kibana（日志分析与展示）实验使用场景：通过ambari部署集群后，可以添加自己的日志系统，记录每个组件的产生的日志，实时的查询分析一、Flume概述：Apache Flume is a distributed, reliable, and available syste

2016-03-29 09:44:25 2442

转载你不知道的HashMap与HashSet

目录(?)[-]什么是HashSet什么是HashMapHashSet和HashMap的区别HashMap和HashSet的区别是Java面试中最常被问到的问题。如果没有涉及到Collection框架以及多线程的面试，可以说是不完整。而Collection框架的问题不涉及到HashSet和HashMap，也可以说是不完整。HashMap和HashSet都是colle

2016-03-24 20:52:14 491

原创 hadoop 集群开启之后datanode没有启动

datanode没有启动将hadoop配置文件修改后，重新格式化了hadoop集群，即hadoop name -format但是此时发现slave节点没有启动datanode上网查找解决方法，最后终于解决了，解决方法如下：1. 先执行stop-all.sh暂停所有服务2. 将所有Salve节点上的tmp(即 hdfs-site.xml 中指定的 dfs.data.dir 文件夹

2016-03-16 10:29:25 19783 8

原创服务器时间同步

root用户下，使用命令ntpdate -u ntp.api.bz其中ntp.api.bz为上交的一个时间服务器同步网络 ntpdate命令： ntpdate -u 210.72.145.44 :网络时间同步命令注意：若不加上-u参数，会出现以下提示：no server suitable for synchronization found

2016-03-14 14:37:06 1309

原创 Hive基本操作通过java连接

1、启动服务#hive --service hiveserver2 >/dev/null 2>/dev/null &以上命令启动hiveserver2服务。Hive提供了jdbc驱动，使得我们可以用java代码来连接Hive并进行一些类关系型数据库的sql语句查询等操作。首先，我们必须将Hive的服务，也就是HiveServe打开。在Hive 0.11.0版本前，只有HiveServer

2016-03-14 09:46:03 3961

原创 Hive分布式安装

1、mysql安装主要是通过在线安装，首先通过下面命令来查看mysql相关的版本[hadoop1@master ~]$ yum list | grep mysqlmysql-libs.x86_64 5.1.71-1.el6 @anaconda-CentOS-201311272149.x86_64/6.5

2016-03-12 18:42:46 2961

转载 Flume+HBase采集和存储日志数据

转自：http://blog.csdn.net/yaoyasong/article/details/39400829前言大数据时代，谁掌握了足够的数据，谁就有可能掌握未来，而其中的数据采集就是将来的流动资产积累。几乎任何规模企业，每时每刻也都在产生大量的数据，但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息，而在于对这些数据进行智能处理，从

2016-03-08 00:19:05 6764

转载开源大数据查询分析引擎现状

【按：此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品，转载于此。这些基础性的研究和测试对比分析，对于我们的BDSA技术路线选定大有帮助。】引言大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。G

2016-03-07 23:56:51 721

转载基于大数据分析的异常检测方法及其思路实例

转自：http://www.2cto.com/Article/201601/485562.html1 概述随着人类社会信息化程度的不断深入，信息系统产生的数据也在呈几何级数增长。对这些数据的深入分析可以得到很多有价值的信息。由于数据量太大以及数据属性的多样性，导致经典的统计分析方法已经无法适用，必须采用以机器学习理论为基础的大数据分析方法。目前，大数据分析的方法已经被广泛用于商

2016-03-07 23:40:19 2632

原创 Hbase基础学习--shell常用命令

1、启动Hbase shell进入HBase安装目录，输入 ./hbase shell[hadoop@Master bin]$ ./hbase shell2016-03-07 11:07:02,174 WARN [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform...

2016-03-07 14:35:28 1042

转载 Hadoop日志文件分析系统

项目需求：需要统计一下线上日志中某些信息每天出现的频率，举个简单的例子，统计线上每天的请求总数和异常请求数。线上大概几十台服务器，每台服务器大概每天产生4到5G左右的日志，假设有30台，每台5G的，一天产生的日志总量为150G。处理方案：方案1：传统的处理方式，写个JAVA日志分析代码，部署到每台服务器进行处理，这种方式部署起来耗时费力，又不好维护。

2016-03-05 00:11:07 991

转载海量Web日志分析用Hadoop提取KPI统计指标

转自：http://blog.fens.me/hadoop-mapreduce-log-kpi/Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie

2016-03-04 23:44:13 923

转载像人类大脑一样的欺骗检测架构设计

像人类大脑一样的欺骗检测架构设计入侵检测 Spark 实时网络流

2016-03-03 17:01:03 879

转载 Real Time Detection of Outliers in Sensor Data using Spark Streaming

From:https://pkghosh.wordpress.com/2015/02/19/real-time-detection-of-outliers-in-sensor-data-using-spark-streaming/As far as analytic of sensor generated data is concerned, in Internet of Thin

2016-03-03 14:59:29 811

原创 HBase分布式安装

说明对于HBase与Hadoop版本要选择相对应的（否则会出很多问题），具体对应版本可参考：本次集群对应版本为：Hadoop-2.7.2 + HBase-1.2.0安装：第一步：依赖环境主要有Java、Hadoop、zookeeperHBase分布式下安装，则需首先安装hdfs也即使安装hadoop，对于zookeeper可以选择不安装（不安装的话就是用hb

2016-03-02 20:49:26 1080 1

转载分布式存储系统知识体系

转自：http://wuchong.me/blog/2014/08/07/distributed-storage-system-knowledge/单机存储引擎哈希哈希存储引擎是哈希表的持久化实现，支持增、删、改，以及随机读取操作，但不支持顺序扫描，对应的存储系统为键值(Key-Value)存储系统，如 Bitcask。它仅支持追加操作，删除也只是通过标识 value 为特

2016-03-01 17:24:57 1301

转载 Spark的性能调优

转自：http://www.raychase.net/3546Distributed System •Recommended Spark的性能调优<img style="float: right;" title="Spark的性能调优" src="http://www.raychase.net/wp-c

2016-02-20 23:27:05 837

转载 RDD：基于内存的集群计算容错抽象

转自：http://shiyanjun.cn/archives/744.html该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译，我是基于科学网翻译基础上进行优化、修改、补充，这篇译文翻译得很不

2016-02-19 13:38:20 1178

原创 Elasticsearch 之 query与filter区别

参考官方文档说明如下：https://www.elastic.co/guide/en/elasticsearch/guide/current/_queries_and_filters.html#_performance_differences主要意思是：fiter是精确查询，对待的文档检索的结果是是/否；query对应文档检索是对文档相关性评分。表现（性能Performance）区

2016-01-22 16:48:04 8795

原创 Elasticsearch之query与filter

Aggregation聚合aggregation分为bucket和metric两种，分别作为词元划分和数值计算。其中的bucket aggregation还支持在自身结果的基础上叠加新的aggregation。这就是aggregation领先于facet的地方。比如实现一个时序百分比统计在facet接口无法直接完成，在aggregation接口就很简单。query与filter1、区别

2016-01-22 14:00:34 2269

原创批量插入数据重复插入

通过前面的完成了批量的插入但是会有重复性的数据的插入，怎么样保证插入的数据不重复，这是需要考虑的，写记下！

2016-01-20 21:19:03 1806

转载 MyBatis批量插入数据

在程序中封装了一个List集合对象，然后需要把该集合中的实体插入到数据库中，由于项目使用了Spring+MyBatis的配置，所以打算使用MyBatis批量插入，由于之前没用过批量插入，在网上找了一些资料后最终实现了，把详细过程贴出来。实体类TrainRecord结构如下： Java代码 public class TrainRecord im

2016-01-20 19:32:14 535

转载 springMVC 接收数组参数，mybatis 接收数组参数，mybatis批量插入/批量删除案例

案例是给一个用户赋予多个权限，多个权限用其对应的主键 id 为参数，组成了一个id数组，传给springMVC，然后springMVC传给mybatis，然后mybatis批量插入。其实类似的场景还有批量删除多个，也是类似的。1. 前台页面　　　　　　　　thead>tr>th>权限选择th>th>nameth>th>permissionth>tr>thead>

2016-01-20 19:31:31 3343

转载 mysql + SpringMVC + MyBatis中批量插入实例以及@Param注解的用法

1.使用到的jar包如下：mybatis-3.2.2.jar、mybatis-spring-1.2.2.jar、mysql-connector-java-5.1.32.jar2.Spring配置文件[html] view plain copy bean id="sqlSessionFactory" class="org.my

2016-01-20 19:30:35 8789

转载 DataGrid 数据表格

扩展自 $.fn.panel.defaults ，用 $.fn.datagrid.defaults 重写了 defaults 。依赖panelresizablelinkbuttonpagination用法1. id="tt"> 1. $('#tt').datagrid({ 2. url:'datagrid_data.json',

2016-01-20 14:52:50 756

原创 Json学习

首先说下 JSON 的五点语法：数组（Array）用方括号(“[]”)表示。对象（Object）用大括号（”{}”）表示。名称/值对（name/value）之间用冒号（”：”）隔开。名称（name）置于双引号中，值（value）有字符串、数值、布尔值、null、对象和数组。并列的数据之间用逗号（“,”）分隔{} //空对象{"name":"Geoff Lui"}

2016-01-19 11:11:31 434

转载 easyui datagrid 表格组件列属性formatter和styler使用方法

明确单元格DOM结构要想弄清楚formatter和styler属性是怎么工作的，首先要弄清楚datagrid组件内容单元格的DOM接口，注意，这里指的是内容单元格，不包括标题单元格，标题单元格的结构有所区别。我们所有内容单元格的默认DOM结构如下：12345td field="code"> d

2016-01-15 19:45:58 4316 1

原创 spring mvc打印信息

平常为了测试会在项目程序中打印一些信息但是，如果用System.out.println（）；会消耗很多资源因此，可以用以下的方式来打印帮助。配置好Spring MVC关于log4j.properties，它的内容为以下：### set log levels ####log4j.rootLogger = debug , stdout , D , Elog4j.rootLogger = i

2016-01-15 15:38:19 1440

centos7.6机器上离线安装docker-ce-19.03、nvidia-docker2

在CentOS 7.6上离线安装Docker CE 19.03和Nvidia Docker 2可以按照以下步骤进行操作：首先，您需要从Docker官方网站或Nvidia Docker官方网站下载对应版本的安装包。确保选择与您的操作系统和架构（例如x86_64）兼容的安装包。将下载的安装包保存在适当的位置，并使用tar命令进行解压缩。例如，使用以下命令解压缩Docker CE 19.03的安装包： bash tar -zxvf docker-19.03.9.tgz 进入解压后的文件夹，并使用rpm命令进行安装。例如： bash cd docker-19.03.9 rpm -Uvh *.rpm --nodeps --force 注意：这将会自动安装所有依赖项并强制覆盖已有的文件。

2023-11-17

C#文件监控源代码 FileEventWatcher

用C#做的一个FileWatcher文件监控程序的源代码，希望对大家的学习有帮助！

2017-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人