Big Data
文章平均质量分 59
zstarstone
研究方向:信息安全,大数据分析
展开
-
开启Hadoop之旅
要回归技术了,开启Hadoop之旅原创 2013-04-11 09:09:33 · 744 阅读 · 0 评论 -
当大数据遇到安全分析:思科OpenSOC即将开源
来源:http://www.aqniu.com/neotech/network-security/4546.html作者:zeon 2014年9月17日 来源:安全牛 收藏文章(0) OpenSOC是大数据分析与安全分析技术的结合大数据与安全分析技术的结合是信息安全市场的热点话题,而思科公司的安全大数据分析框架OpenSOC也在转载 2015-04-28 16:16:01 · 1026 阅读 · 0 评论 -
大数据工程人员知识图谱
http://yanbohappy.sinaapp.com/?cat=32大数据工程人员知识图谱3 Replies在企业里面从事大数据相关的工作到底需要掌握哪些知识呢?我认为需要从两个角度来看:一个是技术;一个是业务。技术上主要涉及到概率和数理统计,计算机系统、算法和编程等;而业务的角度呢则是因公司业务的不同而异。对于从事大数据的工程人员来说,需要学会使用数据挖掘方转载 2015-06-25 13:16:50 · 3632 阅读 · 0 评论 -
新手福利:Apache Spark入门攻略
新手福利:Apache Spark入门攻略发表于2015-07-10 18:07|5734次阅读| 来源Dzone|10 条评论| 作者Ashwini Kuntamukkala大数据开源Spark摘要:本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。【编者按】时至今日,S转载 2015-07-14 09:23:56 · 1519 阅读 · 0 评论 -
上海联通大数据与机器学习驱动的离网预测模型
发表于2015-07-10 07:16|3049次阅读| 来源《程序员》电子刊|6 条评论| 作者沈可 刘志刚 姚健 袁明轩 曾嘉大数据机器学习特征工程分类器离网预测模型上海联通摘要:大数据的V特性Volume、Variety、Velocity可以使我们更容易捕捉到用户的离网倾向,从而作出相应的维挽措施挽留用户。上海联通部署大数据驱动的离网预测模型,在预测前5万名高离网倾向预付费用转载 2015-07-14 12:32:16 · 2099 阅读 · 0 评论 -
开源大数据查询分析引擎现状
引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据转载 2015-07-14 16:06:32 · 744 阅读 · 0 评论 -
一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等
作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebook Scribe贡献者:Facebook转载 2015-07-14 17:22:58 · 4240 阅读 · 0 评论 -
强烈推荐!大数据领域的顶级开源工具大集合
随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的优势越来越明显。 如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡。 以下是一些大数据方面的顶级开源工具,分为四个领域:数据存储、开发平台、开发工具和集成、分析和报告工具。 数据存储:Apache转载 2015-07-14 17:19:02 · 2356 阅读 · 0 评论 -
一共81个,开源大数据处理工具汇总(上)
作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache转载 2015-07-14 17:21:36 · 3917 阅读 · 0 评论 -
大数据技术人员的工具包——开源大数据处理工具list(限时下载)
详细文字介绍版本请看:一共81个,开源大数据处理工具汇总(上)一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等下面是文档简版,收集整理者为Aquester类别名称官网备注查询引擎Phoenixhttp://phoenix.incubator.apache.org/Salesforce公司出品,Apache转载 2015-07-14 17:26:31 · 1592 阅读 · 0 评论 -
开源日志系统比较
本博客微信公共账号:hadoop123(微信号为:hadoop-123),分享hadoop技术内幕,hadoop最新技术进展,发布hadoop相关职位和求职信息,hadoop技术交流聚会、讲座以及会议等。二维码如下:1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:转载 2015-07-14 15:15:36 · 715 阅读 · 0 评论 -
基于大数据分析的安全管理平台技术研究及应用
【引言】这篇文章原载于内刊,现发布于此。内容有所删减。基于大数据分析的安全管理平台技术研究及应用Research and Application of Big Data Analysis Based Security Management PlatformLast Modified By yepeng @ 2014-1-14【内容摘要】本文首先通过介绍大数据的起因,给出转载 2015-07-14 17:24:25 · 11902 阅读 · 1 评论 -
flume+kafka+storm+mysql架构设计
http://blog.csdn.net/mylittlered/article/details/20810265分类: storm2014-03-09 00:55 6769人阅读 评论(185) 收藏 举报目录(?)[+]序言前段时间学习了storm,最近刚开blog,就把这些资料放上来供大家参考。这个框架用的组件基本都是最新稳定版本,flume转载 2015-07-29 16:02:43 · 768 阅读 · 0 评论 -
从Hadoop到Spark的架构实践
发表于2015-06-08 10:46|5838次阅读| 来源程序员杂志|3 条评论| 作者阎志涛Hadoop架构移动互联网数据挖掘技术架构摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程。当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark转载 2015-08-11 10:35:06 · 1142 阅读 · 0 评论 -
ubuntu git 服务器搭建
安装Git及Gitosis$apt-get update$apt-get upgrade$ps -ef | grep ssh$sudo apt-get install openssh-server openssh-client$sudo apt-get install git-core $sudo adduser --system --shell /bin/bash -原创 2015-08-28 02:35:33 · 1374 阅读 · 0 评论 -
Hadoop 50070端口无法打开的问题
重新装了一下hadoop,还是遇到一些问题。问题1:配置的时候遇到JAVA_HOME not set解决办法:必须在hadoop-env.sh文件中设置JAVA的绝对路径问题2:能正常启动集群,能看8088端口,但是无法查看50070,但是Namenode和datanode已经能JPS查看解决办法:首先排除了防火墙的问题,后来看需要格原创 2016-01-06 15:57:14 · 22302 阅读 · 0 评论 -
OpenSOC初探
2015/4/16 17:39:41 来源:http://blog.chinaunix.net/uid-26275986-id-4964935.htmlCisco在最近的BroCon大会上公布了旗下的OpenSOC项目即将开源的消息,在其GIT站点上也开始放出了部分代码,应该说OpenSOC对于当今大数据分析的“落地”有着重要的意义。一直以来各界都鼓吹大数据的神奇力量,但是却一直无转载 2015-04-28 16:18:40 · 2773 阅读 · 0 评论 -
hadoop1.0 和hadoop2.0 任务处理架构比较
来源:http://younglibin.iteye.com/blog/1921385刚刚看到一篇文章对 hadoop1 和 hadoop 2 做了一个解释 图片不错 拿来看看 Hadoop 1.0 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了转载 2015-04-24 10:11:10 · 684 阅读 · 0 评论 -
Hadoop 2.0 安装向导 (0.23.x)
http://blog.csdn.net/shenshouer/article/details/7613234安装向导 (0.23.x)最新版本的HADOOP2.0与老版本相比有不同的目录结构。本文将介绍一种简单安装Hadoop2.0到你的电脑上的方法(Hadoop 0.23 安装)。这有许多可以执行的方式,现在介绍以下:如果想安装老版本的hadoop此处不转载 2013-04-15 14:26:56 · 807 阅读 · 0 评论 -
JDK1.6在LINUX下的安装配置
JDK1.6在LINUX下的安装配置2009-07-07 11:33 佚名 百度百科 我要评论(3) 字号:T | TJDK1.6在LINUX下的安装配置是Java初学者开始Java编程的必经之路,那么如何JDK1.6在LINUX下的安装配置就成了首要的问题,那么本文就向你介绍JDK1.6在LINUX下的安装配置问题。AD: 2013大数据全球技术峰会低价抢转载 2013-04-15 12:25:05 · 955 阅读 · 1 评论 -
鼠标键盘共享之-Synergy工具
------------------------------以下为转载自http://www.cnblogs.com/linucos/archive/2011/10/31/2230157.html---------------Synergy工具,绝对好玩而且好用,下面我们一步步,搞定一套鼠标键盘同时操作windows和linux双系统,本篇的环境是windows xp和ubuntu9.10转载 2013-04-12 13:24:50 · 701 阅读 · 0 评论 -
hadoop通过FileSystem API读取和写入数据
看hadoop指南(有更好的源码),自己测试着写了一个小例子,在伪分布式上测试成功,对JAVA的一些API也不太了解,都是一个熟悉的过程吧。这个例子主要可以熟悉一些API,以及理解各个类之间的调用和转化关系,重新学习一门语言,主要还是API的一些操作问题,慢慢来吧,别着急,come on.import java.io.InputStream;import java.i原创 2013-05-27 15:28:19 · 4063 阅读 · 0 评论 -
hadoop之测试KMeans(二):输出结果分析
上次给出了hadoop之测试KMeans(一):运行源码实例,这次来分析一下整个MapReduce的输出结果。测试数据文件依然是文一中提到的15组数据:(20,30) (50,61) (20,32) (50,64) (59,67)(24,34) (19,39) (20,32) (50,65) (50,77) (20,30) (20,31) (20,32) (50,64) (50,67) 先原创 2013-05-28 12:55:25 · 4831 阅读 · 0 评论 -
hadoop之测试KMeans(一):运行源码实例
新学hadoop,测试了hello word级别的程序WordCount,打算用hadoop做聚类分析,这次测试KMeans,二维的数据,具体代码来自于http://download.csdn.net/detail/tinycui/4384750#comment,由于评论中大家对于文档偏少,所以这里详细的介绍一下我的测试过程(伪分布式),以供参考,同时感谢tinycui提供的源代码下载。原创 2013-05-24 11:21:16 · 11190 阅读 · 22 评论 -
Mapreduce的输入格式
http://blog.csdn.net/lilin_xdu/article/details/7790891map(k1,v1)——>list(k2,v2)reduce(k2,list(v2))->list(k3,v3)reduce的输入类型必须与map函数的输出类型相同combine的输入输出键值类型必须相同,也就是k2,v2static class Mapp转载 2013-05-31 16:28:31 · 1129 阅读 · 0 评论 -
Hadoop中文件读写(Java)
前言在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况:1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间转载 2013-05-31 16:51:33 · 2591 阅读 · 0 评论 -
Hadoop中map/reduce编程中关于mapper和reducer的Format问题
[日期:2012-01-16]来源:Linux社区 作者:ae86_fc[字体:大 中 小]Hadoop中的map/reduce编程中有几个非常关键的组件,其中包括 Mapper,Reducer,InputFormat,OutputFormat,OutputKeyClass,OutputValueClass 等,在刚接触map/reduce编程的时候很容易由于转载 2013-05-31 17:01:33 · 1278 阅读 · 0 评论 -
自己完成的第一个Map-Reduce, 类似模板匹配
终于完成了自己的第一个MAP-REDUCE程序,程序的主要功能是对输入文件中的一组向量,计算新的向量和文件中的向量距离,并按距离从小到大排序。下一步计算应用到高维数据中寻找相似向量的程序中。从Map-reduce程序开发的角度考虑自己做的这个程序,以后需要注意的这几点:1、map根据定义的输入格式自动读入数据,默认的是对文本文件中每行的值读取作为value, 看很多书说其key是行,我觉得原创 2013-06-04 10:49:11 · 2641 阅读 · 0 评论 -
Hadoop linux(ubuntu)分布式部署配置问题记录
原文转自:http://lwjlaser.iteye.com/blog/1443147从昨天晚上开始陆陆续续配置hadoop的分布式运行环境,一直到现在才配置运行成功,算是学习hadoop征程上迈出的一小步。期间也遇到了一系列问题,通过各种方法也慢慢解决了,解决过程中发现由于hadoop的异常处理系统还不够完善(本人这样认为的)不同原因导致的问题会有相同的错误提示,这使得排除错误显得异转载 2013-06-28 11:12:29 · 1308 阅读 · 0 评论 -
关于SSH无密钥相互登陆遇到的问题
主要操作这个写的很详细:http://space.itpub.net/26686207/viewspace-742502,摘抄如下:设置h1 h2 h4 的sshH4[grid@h4 ~]$ ssh-keygen -t rsa 使用RSA加密算法生成密钥对Generating public/private rsa key pair.转载 2013-07-03 16:27:13 · 8541 阅读 · 0 评论 -
终于搞定了hadoop集群的配置
终于搞定了hadoop的集群配置,困扰了好几天,因为也没有人讨论,很是郁闷。完成后大概有以下几点感想吧。1、开始的用户名不是一致2、ssh的配置不正确,具体配置可以参考前一篇文章3、可以在一台机器上配置,ssh到另外的机器上4、其他可以参考另外两篇文章,由于开始参考这两篇文章没配置成功,所以不搬过来了,尤其是这两篇文章的ssh配置不详细,个人感觉,不过其他一些方面可以参转载 2013-07-03 16:59:45 · 3457 阅读 · 0 评论 -
如何让你的作业在Hadoop集群中真正实现分布式运行?
搭建过hadoop之后,如何让程序在hadoop集群中分布式运行成了一件令人头痛的事。可能有人会说在eclipse的类文件中右键点击-》“run on hadoop”不就行了嘛,注意:eclipse中的“run on hadoop”默认只是运行在单机上的,因为要想在集群中让程序分布式运行还要经历上传类文件、分发到各个节点等过程的,一个简单的“run on hadoop”只是启动转载 2013-07-03 19:44:27 · 1093 阅读 · 0 评论 -
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章:1.一个好的项目架构应该具备什么特点?2.本项目架构是如何保证数据准确性的?3转载 2015-04-24 09:19:37 · 959 阅读 · 0 评论 -
启动hadoop 2.6遇到的datanode启动不了
http://blog.csdn.net/zhangt85/article/details/42078347查看日志如下:2014-12-22 12:08:27,264 INFO org.mortbay.log: Started [email protected]:500752014-12-22转载 2015-12-25 13:35:19 · 4373 阅读 · 0 评论