muriyi-CSDN博客

原创 kaggle初体验

前期通过了解相关的SOC安全框架，明确大规模的数据处理、挖掘是其中最为关键的环节，也是SOC深度应用的关键，这里离不开海量数据的分析与机器学习。如Cisco开放的OpenSoc开源框架中，在Storm中就需要自己编写分析引擎和机器学习方法，来进一步针对实际业务优化分析结果。为此，特别留出一部分时间对于数据分析、机器学习进行了一个粗的了解，顺道参加了kaggle的Santander Product R

2016-12-19 20:25:38 508

转载别老扯什么Hadoop了，你的数据根本不够大

原文引自http://geek.csdn.net/news/detail/2780本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮

2016-10-13 08:27:53 395

原创 TensorFlow安装所遇到的问题

1、安装环境 virtualBox+CentOS72、存在的问题（1）No package python-pip available 参考这篇文章（2）No package python-dev available 参考这篇文章未完待续

2016-08-25 21:55:55 460

原创 virtualbox内CentOS7利用无线网卡上网

最近在使用TensorFlow是遇到需要进行在线安装的问题，但使用的环境是VirtualBox+CentOS7，上网条件是HUAWEI的上网宝+笔记本的无线网卡，查看了相关的文档，采用了以下较为简单的解决方案。1、基本环境宿主：WINDOWS 7 虚拟机：VirtualBox+CentOS7 上网条件：HUAWEI上网宝+笔记本的无线网卡2、任务目标虚拟机上的CentOS7能够直接连接互

2016-08-15 22:11:54 6311

原创 Storm前世今生分析

“问渠哪得清如许,为有源头活水来”–朱熹任何优秀产品的出现，核心在于两点：一是解决了现实需求，二是解决的很好。因此，我们想深入的了解一个产品，就必须明确其产生的根源，如何解决这一问题，解决的方式有何优势，从而能够对其有一个整体的轮廓。Storm是我第一次接触，在实际项目中暂时也还没有涉及，但是正是由于对大数据的兴趣，我也就沿着这样一个思路来了解Storm的一些基本情况。一、产生的背景。在2011

2016-08-01 21:22:26 437

原创 Flume源码分析—数据流转框架分析（五）

Flume-NG中主要由source、channel及sink三个组件完成目标数据的收集、传递及整理过程，本文主要通过其源码来分析flume是如何将这些组件有机的整合在一起，完成数据的流转过程，从而为我们开发相似的框架提供借鉴。源码的版本还是使用的apache-flume-1.6.0-src 。一、组件参数准备与启动1、首先在根据配置文件启动Flume时，在org.apache.flume.node

2016-06-14 17:12:01 569

原创 Flume源码分析—代码结构理解（四）

Flume源码涵盖的内容很多，但大家在读取Flume源码时可以去除枝叶，把握核心部分，可以有效的减轻源码分析的工作量。我使用的Flume-NG源码的版本为1.6.0，其他版本的源码可以参照分析。根据Flume的基本原理，flume主要由source、sink以及channel三个组件组成，为了方便广大用户使用flume，flume项目组也是花了很多心思做了大量的组件来适配当前主流的源、目标以及cha

2016-06-05 09:59:21 1205

原创 flume与kafka联调测试

一、任务目标 log4j直接收集日志信息发送到flume，并由kafka按照主题进行分发订阅。二、环境介绍详细环境依托于这里； kafka使用的版本为kafka-2.9.1－0.8.2.1,其JDK要求为1.7以上，在virtualbox中复制一个虚拟机安装kafka,其IP地址为192.168.1.12，解压好进行节点测试通过。三、联调过程 1、flume-ng中自带了flume

2016-05-29 09:37:25 1061

原创 flume源码分析--Log4j日志直接发送到Flume过程分析（三）

一、分析Log4j向flume发送日志的过程按照前述调试过程，理清Log4j向flume发送日志所经过的过程，如下所示：首先在初始化日志类时，就需要读取配置文件信息，并对其进行解读定位，关键是用到了org.apache.flume.clients.log4jappender.Log4jAppender类。在类初始化过程中，重点对该类进行调用，使得log4j在输出时可以通过netty，输出到相

2016-05-09 22:15:56 2251

原创 flume源码分析--Log4j日志直接发送到Flume过程分析（二）

一、环境介绍参见这里二、分析方法 1、在物理主机上编写代码用来记录日志信息，代码如下：public class log4jAppendTest { private static final Log logger = LogFactory.getLog(log4jAppendTest.class); public static void main(String[] args) t

2016-05-04 21:46:01 1389 1

原创 JAVA项目开发不可或缺的辅助包

“如果我看得更远一点的话,是因为我站在巨人的肩膀上”。—-牛顿现行的JAVA项目开发越来越复杂，如果能够掌握一些开源的辅助开发包，并会使你的项目开发工作事半功倍。我将我在项目开发过程中常用的一些辅助包进行了简单的整理，未完，欢迎大家补充。 1、日志有关日志类的很多，常见的是综合slf4j,commons-logging，log4j等等，相互之间的关系参见这里 2、命令行 commons-c

2016-04-19 15:31:24 718

原创 Flume源码分析—利用Eclipse对Flume源码进行远程调试分析环境搭建（一）

一、引言最近在学习了解大数据分析相关的工作，对于其中用到的收集部分用到了flume，特意花了点时间了解了一下flume的工作原理及工作机制。个人了解一个新的系统首先从概略上了解一下其基本原理后，接着从源代码入手了解其部分关键实现部分，最后会尝试去修改部分内容，从而加深对其的理解。有关flume原理部分相关资料网上很多，这里介绍一下源码分析过程。二、环境介绍 1、apache-flume-1

2016-04-14 11:50:52 4601 4

muriyi的博客