自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BlueSky

找到自己,从现在开始......

  • 博客(160)
  • 资源 (1)
  • 收藏
  • 关注

转载 如何为logstash+elasticsearch配置索引模板?

在使用logstash收集日志的时候,我们一般会使用logstash自带的动态索引模板,虽然无须我们做任何定制操作,就能把我们的日志数据推送到elasticsearch索引集群中,但是在我们查询的时候,就会发现,默认的索引模板常常把我们不需要分词的字段,给分词了,这样以来,我们的比较重要的聚合统计就不准确了: 举个例子,假如有10台需要的监控的机器,他们的机器名如下: Ja

2016-04-19 18:15:15 14046

转载 Spark 调试

1概述针对调试,根据不同的调试对象可以分为两类:1、应用程序的调试。2、框架源码的调试。在IDE中调试时采用的方法也对应有两种:1、本地调试:可以简单理解为调试与被调试对象之间不需要通过通信的方式执行。2、远程调试。通常这两种方式都是可用的,只是在某些情况下,当被调试对象部署在远程机器节点中,而我们的调试工

2016-04-19 09:03:09 4896 1

转载 Spark 提供的概率与统计算法 - 基本统计算法

spark-mllib 使用到了Breeze线性代数包,Breeze 采用了 metlib-java包来优化数字处理,但是由于版权问题,Breeze 中缺省不包含 netlib-java 的 native proxy,需要在项目中自行引用。        compile "org.apache.spark:spark-mllib_${scalaMajorVersion}:${s

2016-04-16 09:56:33 9108 4

转载 Git使用详细教程

一:Git是什么?  Git是目前世界上最先进的分布式版本控制系统。  二:SVN与Git的最主要的区别?  SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以首先要从中央服务器哪里得到最新的版本,然后干活,干完后,需要把自己做完的活推送到中央服务器。集中式版本控制系统是必须联网才能工作,如果在局域网还可以,带宽够大,速度够快,

2016-04-14 15:23:25 492

转载 45倍加速Spark的处理效率?!

Spark代表着下一代大数据处理技术,并且,借着开源算法和计算节点集群分布式处理,Spark和Hadoop在执行的方式和速度已经远远的超过传统单节点的技术架构。但Spark利用内存进行数据处理,这让Spark的处理速度超过基于磁盘的Hadoop 100x 倍。但Spark和内存数据库Redis结合后可显著的提高Spark运行任务的性能,这源于Redis优秀的数据结构和执行过程,从而减小数据

2016-04-14 08:57:34 2628

转载 StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎

大数据分析按照模型是否在线学习可以分为离线学习(Offline Learning))和在线学习(Online Learning)两大方式,对应的数据处理模式分别为批处理(Batch Mode)分析和流处理(Streaming)分析。在实际应用中,存在连续不断的海量、高速的流数据,这些场景下,数据通常无法全部保存,只能在通过系统时进行一次性分析处理,流数据分析平台可以发挥重要作用。Spark Str

2016-04-14 08:54:16 2327

转载 美团实例详解机器学习如何解决问题

前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,介绍机器学习在解决工业界问题的实战中所需的基本技术、经验和技巧。本文主要结合实际问题,概要地介绍机器学习解决实际问题的整个

2016-04-07 09:01:55 928

转载 Logstash 入门教程 -配置案例

转自:http://corejava2008.iteye.com/blog/2215591介绍一个详细案例,讲述如何配置读取Apache日志,Syslog并根据自定义条件进行过滤和输出。手工输入并解析数据LS中可以通过Filter针对数据进行切片切块等操作,解析,装换,组装等等。。Java代码  input { stdin { } } #控制台输

2016-04-06 19:03:08 4667

原创 hadoop启动后,长久不用,无法关闭

上次配好了hadoop的环境,已经大概过去一周了,查看hadoop的运行情况:上次配好了hadoop的环境,已经大概过去一周了,查看hadoop的运行情况: 在master节点上查看jps状态: 执行停止命令的时候发现下面情况: 在网上查了一些资料觉得下面的解释比较靠谱:出现这个问题的最常见原因是hadoop在stop的时

2016-04-05 20:14:06 2911

转载 Flume中的HDFS Sink配置参数说明

关键字:flume、hdfs、sink、配置参数转自:http://lxw1234.com/archives/2015/10/527.htmFlume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channeltypehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/

2016-03-30 13:29:14 11822 1

原创 Flume-ng 1.6.0安装、配置与使用

1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failov

2016-03-29 20:59:25 7252

转载 Flume Source对多行的处理

ExecSource会readLine()读取日志中的每一行,把其作为每一个flume event的body放进去,这对于大部分这种每行就可以结束的日志记录,是完全可以的:122016-03-18 17:53:48,374 INFO namenode.FSNamesystem (FSNamesystem.java:listCorruptFileBlocks(72

2016-03-29 09:46:11 5456 1

转载 实时日志收集-查询-分析系统(Flume+ElasticSearch+Kibana)

实时日志收集,查询,分析系统设计方案:Flume(日志收集) + ElasticSearch(日志查询)+ Kibana(日志分析与展示)实验使用场景:通过ambari部署集群后,可以添加自己的日志系统,记录每个组件的产生的日志,实时的查询分析一、Flume概述:Apache Flume is a distributed, reliable, and available syste

2016-03-29 09:44:25 2442

转载 你不知道的HashMap与HashSet

目录(?)[-]什么是HashSet什么是HashMapHashSet和HashMap的区别HashMap和HashSet的区别是Java面试中最常被问到的问题。如果没有涉及到Collection框架以及多线程的面试,可以说是不完整。而Collection框架的问题不涉及到HashSet和HashMap,也可以说是不完整。HashMap和HashSet都是colle

2016-03-24 20:52:14 491

原创 hadoop 集群开启之后datanode没有启动

datanode没有启动将hadoop配置文件修改后,重新格式化了hadoop集群,即hadoop name -format但是此时发现slave节点没有启动datanode上网查找解决方法,最后终于解决了,解决方法如下:1. 先执行stop-all.sh暂停所有服务2. 将所有Salve节点上的tmp(即 hdfs-site.xml 中指定的 dfs.data.dir 文件夹

2016-03-16 10:29:25 19783 8

原创 服务器时间同步

root用户下,使用命令ntpdate -u ntp.api.bz其中ntp.api.bz为上交的一个时间服务器同步网络    ntpdate命令:    ntpdate -u 210.72.145.44 :网络时间同步命令    注意:若不加上-u参数, 会出现以下提示:no server suitable for synchronization found   

2016-03-14 14:37:06 1309

原创 Hive基本操作 通过java连接

1、启动服务#hive --service hiveserver2 >/dev/null 2>/dev/null &以上命令启动hiveserver2服务。Hive提供了jdbc驱动,使得我们可以用java代码来连接Hive并进行一些类关系型数据库的sql语句查询等操作。首先,我们必须将Hive的服务,也就是HiveServe打开。在Hive 0.11.0版本前,只有HiveServer

2016-03-14 09:46:03 3961

原创 Hive分布式安装

1、mysql安装主要是通过在线安装,首先通过下面命令来查看mysql相关的版本[hadoop1@master ~]$ yum list | grep mysqlmysql-libs.x86_64 5.1.71-1.el6 @anaconda-CentOS-201311272149.x86_64/6.5

2016-03-12 18:42:46 2961

转载 Flume+HBase采集和存储日志数据

转自:http://blog.csdn.net/yaoyasong/article/details/39400829前言大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从

2016-03-08 00:19:05 6764

转载 开源大数据查询分析引擎现状

【按:此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品,转载于此。这些基础性的研究和测试对比分析,对于我们的BDSA技术路线选定大有帮助。】引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。G

2016-03-07 23:56:51 721

转载 基于大数据分析的异常检测方法及其思路实例

转自:http://www.2cto.com/Article/201601/485562.html1 概述随着人类社会信息化程度的不断深入,信息系统产生的数据也在呈几何级数增长。对这些数据的深入分析可以得到很多有价值的信息。由于数据量太大以及数据属性的多样性,导致经典的统计分析方法已经无法适用,必须采用以机器学习理论为基础的大数据分析方法。目前,大数据分析的方法已经被广泛用于商

2016-03-07 23:40:19 2632

原创 Hbase基础学习--shell常用命令

1、启动Hbase shell进入HBase安装目录,输入 ./hbase shell[hadoop@Master bin]$ ./hbase shell2016-03-07 11:07:02,174 WARN [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform...

2016-03-07 14:35:28 1042

转载 Hadoop日志文件分析系统

项目需求:   需要统计一下线上日志中某些信息每天出现的频率,举个简单的例子,统计线上每天的请求总数和异常请求数。线上大概几十台服务器,每台服务器大概每天产生4到5G左右的日志,假设有30台,每台5G的,一天产生的日志总量为150G。处理方案:   方案1:传统的处理方式,写个JAVA日志分析代码,部署到每台服务器进行处理,这种方式部署起来耗时费力,又不好维护。

2016-03-05 00:11:07 991

转载 海量Web日志分析 用Hadoop提取KPI统计指标

转自:http://blog.fens.me/hadoop-mapreduce-log-kpi/Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie

2016-03-04 23:44:13 923

转载 像人类大脑一样的欺骗检测架构设计

像人类大脑一样的欺骗检测架构设计 入侵检测 Spark 实时网络流

2016-03-03 17:01:03 879

转载 Real Time Detection of Outliers in Sensor Data using Spark Streaming

From:https://pkghosh.wordpress.com/2015/02/19/real-time-detection-of-outliers-in-sensor-data-using-spark-streaming/As far as analytic of sensor generated data is concerned, in Internet of Thin

2016-03-03 14:59:29 811

原创 HBase分布式安装

说明对于HBase与Hadoop版本要选择相对应的(否则会出很多问题),具体对应版本可参考:        本次集群对应版本为:Hadoop-2.7.2 + HBase-1.2.0安装:第一步:依赖环境主要有Java、Hadoop、zookeeperHBase分布式下安装,则需首先安装hdfs也即使安装hadoop,对于zookeeper可以选择不安装(不安装的话就是用hb

2016-03-02 20:49:26 1080 1

转载 分布式存储系统 知识体系

转自:http://wuchong.me/blog/2014/08/07/distributed-storage-system-knowledge/单机存储引擎哈希哈希存储引擎是哈希表的持久化实现,支持增、删、改,以及随机读取操作,但不支持顺序扫描,对应的存储系统为键值(Key-Value)存储系统,如 Bitcask。它仅支持追加操作,删除也只是通过标识 value 为特

2016-03-01 17:24:57 1301

转载 Spark的性能调优

转自:http://www.raychase.net/3546Distributed System •Recommended Spark的性能调优<img style="float: right;" title="Spark的性能调优" src="http://www.raychase.net/wp-c

2016-02-20 23:27:05 837

转载 RDD:基于内存的集群计算容错抽象

转自:http://shiyanjun.cn/archives/744.html该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于科学网翻译基础上进行优化、修改、补充,这篇译文翻译得很不

2016-02-19 13:38:20 1178

原创 Elasticsearch 之 query与filter区别

参考官方文档说明如下:https://www.elastic.co/guide/en/elasticsearch/guide/current/_queries_and_filters.html#_performance_differences主要意思是:fiter是精确查询,对待的文档检索的结果是 是/否 ;query对应文档检索是对文档相关性评分。表现(性能Performance)区

2016-01-22 16:48:04 8795

原创 Elasticsearch之query与filter

Aggregation聚合aggregation分为bucket和metric两种,分别作为词元划分和数值计算。其中的bucket aggregation还支持在自身结果的基础上叠加新的aggregation。这就是aggregation领先于facet的地方。比如实现一个时序百分比统计在facet接口无法直接完成,在aggregation接口就很简单。query与filter1、区别

2016-01-22 14:00:34 2269

原创 批量插入数据重复插入

通过前面的完成了批量的插入但是会有重复性的数据的插入,怎么样保证插入的数据不重复,这是需要考虑的,写记下!

2016-01-20 21:19:03 1806

转载 MyBatis批量插入数据

在程序中封装了一个List集合对象,然后需要把该集合中的实体插入到数据库中,由于项目使用了Spring+MyBatis的配置,所以打算使用MyBatis批量插入,由于之前没用过批量插入,在网上找了一些资料后最终实现了,把详细过程贴出来。 实体类TrainRecord结构如下: Java代码  public class TrainRecord im

2016-01-20 19:32:14 535

转载 springMVC 接收数组参数,mybatis 接收数组参数,mybatis批量插入/批量删除案例

案例是给一个用户赋予多个权限,多个权限用其对应的主键 id 为参数,组成了 一个id数组,传给springMVC,然后springMVC传给mybatis,然后mybatis批量插入。其实类似的场景还有批量删除多个,也是类似的。1. 前台页面        thead>tr>th>权限选择th>th>nameth>th>permissionth>tr>thead>

2016-01-20 19:31:31 3343

转载 mysql + SpringMVC + MyBatis中批量插入实例以及@Param注解的用法

1.使用到的jar包如下:mybatis-3.2.2.jar、mybatis-spring-1.2.2.jar、mysql-connector-java-5.1.32.jar2.Spring配置文件[html] view plain copy  bean id="sqlSessionFactory" class="org.my

2016-01-20 19:30:35 8789

转载 DataGrid 数据表格

扩展自 $.fn.panel.defaults ,用 $.fn.datagrid.defaults 重写了 defaults 。依赖panelresizablelinkbuttonpagination用法1.   id="tt">   1.  $('#tt').datagrid({   2.      url:'datagrid_data.json',

2016-01-20 14:52:50 756

原创 Json学习

首先说下 JSON 的五点语法:数组(Array)用方括号(“[]”)表示。对象(Object)用大括号(”{}”)表示。名称/值对(name/value)之间用冒号(”:”)隔开。名称(name)置于双引号中,值(value)有字符串、数值、布尔值、null、对象和数组。并列的数据之间用逗号(“,”)分隔{} //空对象{"name":"Geoff Lui"}

2016-01-19 11:11:31 434

转载 easyui datagrid 表格组件列属性formatter和styler使用方法

明确单元格DOM结构要想弄清楚formatter和styler属性是怎么工作的,首先要弄清楚datagrid组件内容单元格的DOM接口,注意,这里指的是内容单元格,不包括标题单元格,标题单元格的结构有所区别。我们所有内容单元格的默认DOM结构如下:12345td field="code">    d

2016-01-15 19:45:58 4316 1

原创 spring mvc打印信息

平常为了测试会在项目程序中打印一些信息但是,如果用System.out.println();会消耗很多资源因此,可以用以下的方式来打印帮助。配置好Spring MVC关于log4j.properties,它的内容为以下:### set log levels ####log4j.rootLogger = debug , stdout , D , Elog4j.rootLogger = i

2016-01-15 15:38:19 1440

centos7.6机器上离线安装docker-ce-19.03、nvidia-docker2

在CentOS 7.6上离线安装Docker CE 19.03和Nvidia Docker 2可以按照以下步骤进行操作: 首先,您需要从Docker官方网站或Nvidia Docker官方网站下载对应版本的安装包。确保选择与您的操作系统和架构(例如x86_64)兼容的安装包。 将下载的安装包保存在适当的位置,并使用tar命令进行解压缩。例如,使用以下命令解压缩Docker CE 19.03的安装包: bash tar -zxvf docker-19.03.9.tgz 进入解压后的文件夹,并使用rpm命令进行安装。例如: bash cd docker-19.03.9 rpm -Uvh *.rpm --nodeps --force 注意:这将会自动安装所有依赖项并强制覆盖已有的文件。

2023-11-17

C#文件监控源代码 FileEventWatcher

用C#做的一个FileWatcher文件监控程序的源代码,希望对大家的学习有帮助!

2017-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除