自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 kaggle初体验

前期通过了解相关的SOC安全框架,明确大规模的数据处理、挖掘是其中最为关键的环节,也是SOC深度应用的关键,这里离不开海量数据的分析与机器学习。如Cisco开放的OpenSoc开源框架中,在Storm中就需要自己编写分析引擎和机器学习方法,来进一步针对实际业务优化分析结果。为此,特别留出一部分时间对于数据分析、机器学习进行了一个粗的了解,顺道参加了kaggle的Santander Product R

2016-12-19 20:25:38 508

转载 别老扯什么Hadoop了,你的数据根本不够大

原文引自http://geek.csdn.net/news/detail/2780本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮

2016-10-13 08:27:53 395

原创 TensorFlow安装所遇到的问题

1、安装环境 virtualBox+CentOS72、存在的问题 (1)No package python-pip available 参考这篇文章 (2)No package python-dev available 参考这篇文章未完待续

2016-08-25 21:55:55 460

原创 virtualbox内CentOS7利用无线网卡上网

最近在使用TensorFlow是遇到需要进行在线安装的问题,但使用的环境是VirtualBox+CentOS7,上网条件是HUAWEI的上网宝+笔记本的无线网卡,查看了相关的文档,采用了以下较为简单的解决方案。1、基本环境 宿主:WINDOWS 7 虚拟机:VirtualBox+CentOS7 上网条件:HUAWEI上网宝+笔记本的无线网卡2、任务目标 虚拟机上的CentOS7能够直接连接互

2016-08-15 22:11:54 6311

原创 Storm前世今生分析

“问渠哪得清如许,为有源头活水来”–朱熹任何优秀产品的出现,核心在于两点:一是解决了现实需求,二是解决的很好。因此,我们想深入的了解一个产品,就必须明确其产生的根源,如何解决这一问题,解决的方式有何优势,从而能够对其有一个整体的轮廓。Storm是我第一次接触,在实际项目中暂时也还没有涉及,但是正是由于对大数据的兴趣,我也就沿着这样一个思路来了解Storm的一些基本情况。一、产生的背景。 在2011

2016-08-01 21:22:26 437

原创 Flume源码分析—数据流转框架分析(五)

Flume-NG中主要由source、channel及sink三个组件完成目标数据的收集、传递及整理过程,本文主要通过其源码来分析flume是如何将这些组件有机的整合在一起,完成数据的流转过程,从而为我们开发相似的框架提供借鉴。源码的版本还是使用的apache-flume-1.6.0-src 。一、组件参数准备与启动1、首先在根据配置文件启动Flume时,在org.apache.flume.node

2016-06-14 17:12:01 569

原创 Flume源码分析—代码结构理解(四)

Flume源码涵盖的内容很多,但大家在读取Flume源码时可以去除枝叶,把握核心部分,可以有效的减轻源码分析的工作量。我使用的Flume-NG源码的版本为1.6.0,其他版本的源码可以参照分析。根据Flume的基本原理,flume主要由source、sink以及channel三个组件组成,为了方便广大用户使用flume,flume项目组也是花了很多心思做了大量的组件来适配当前主流的源、目标以及cha

2016-06-05 09:59:21 1205

原创 flume与kafka联调测试

一、任务目标 log4j直接收集日志信息发送到flume,并由kafka按照主题进行分发订阅。 二、环境介绍 详细环境依托于这里; kafka使用的版本为kafka-2.9.1-0.8.2.1,其JDK要求为1.7以上,在virtualbox中复制一个虚拟机安装kafka,其IP地址为192.168.1.12,解压好进行节点测试通过。 三、联调过程 1、flume-ng中自带了flume

2016-05-29 09:37:25 1061

原创 flume源码分析--Log4j日志直接发送到Flume过程分析(三)

一、分析Log4j向flume发送日志的过程 按照前述调试过程,理清Log4j向flume发送日志所经过的过程,如下所示: 首先在初始化日志类时,就需要读取配置文件信息,并对其进行解读定位,关键是用到了org.apache.flume.clients.log4jappender.Log4jAppender类。在类初始化过程中,重点对该类进行调用,使得log4j在输出时可以通过netty,输出到相

2016-05-09 22:15:56 2251

原创 flume源码分析--Log4j日志直接发送到Flume过程分析(二)

一、环境介绍 参见这里 二、分析方法 1、在物理主机上编写代码用来记录日志信息,代码如下:public class log4jAppendTest { private static final Log logger = LogFactory.getLog(log4jAppendTest.class); public static void main(String[] args) t

2016-05-04 21:46:01 1389 1

原创 JAVA项目开发不可或缺的辅助包

“如果我看得更远一点的话,是因为我站在巨人的肩膀上”。—-牛顿现行的JAVA项目开发越来越复杂,如果能够掌握一些开源的辅助开发包,并会使你的项目开发工作事半功倍。我将我在项目开发过程中常用的一些辅助包进行了简单的整理,未完,欢迎大家补充。 1、日志 有关日志类的很多,常见的是综合slf4j,commons-logging,log4j等等,相互之间的关系参见这里 2、命令行 commons-c

2016-04-19 15:31:24 718

原创 Flume源码分析—利用Eclipse对Flume源码进行远程调试分析环境搭建(一)

一、引言 最近在学习了解大数据分析相关的工作,对于其中用到的收集部分用到了flume,特意花了点时间了解了一下flume的工作原理及工作机制。个人了解一个新的系统首先从概略上了解一下其基本原理后,接着从源代码入手了解其部分关键实现部分,最后会尝试去修改部分内容,从而加深对其的理解。有关flume原理部分相关资料网上很多,这里介绍一下源码分析过程。 二、环境介绍 1、apache-flume-1

2016-04-14 11:50:52 4601 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除