2015年03月_数据文字工作者

转载 IBM朱辉：大数据分析的5个高复制使用场景及案例分享(含PPT)

14年8月19日至20日，“2014中国国际大数据大会”在北京国宾酒店召开。以下为IBM中国开发中心信息管理软件部总经理朱辉演讲。观点浓缩：1、大数据这件事，如果说它有一个生命周期的话，我觉得它还没有超过它的婴儿期；2、大数据的魅力不在于它大，而在于这么大的数据里可以产生越来越多以前没有的价值。3、大数据并不光光是指新数据，在这个社会当中，最有价值的数据仍然

2015-03-31 12:07:39 3999

转载大数据的特点及作用

什么是大数据？大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。大数据的特点具体来说，大数据具有4个基本特征：一是数据体量

2015-03-31 10:41:55 5979

转载阿里巴巴数据产品经理工作总结

如何做一个好的数据产品经理？PD本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理（好拗口），相信也有同感。既然要和这么多人打交道，要推动数据产品的上线，数据产品经理自然有着一定的要求。我的体会如下——也借此去鞭策自己在朝这个方向努力：

2015-03-24 09:06:22 714

转载浅谈医学大数据（中）

本文作者陈遵秋，美国俄勒冈州，健康科技大学，公共卫生预防系，美国统计协会认证统计分析师；陈漪伊，美国俄勒冈州，健康科技大学，公共卫生预防系，生物统计助理教授（交流微信号：2823095726）。数据分析框架（传统数据分析框架，大数据分析框架）医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时，大数据随之带来的各种特性使得传统的数据处理

2015-03-24 09:05:14 1397

转载浅谈医学大数据（上）

本文作者陈遵秋，美国俄勒冈州，健康科技大学，公共卫生预防系，美国统计协会认证统计分析师；陈漪伊，美国俄勒冈州，健康科技大学，公共卫生预防系，生物统计助理教授（交流微信号：2823095726）。现在无论国内外均出现了移动医疗热，所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说，90% 以上的人都不知道医疗大数据分析是什么东西，因此这是一篇扫盲

2015-03-24 09:04:25 1552

转载漫画:应对海量数据实现灵活拓展云存储

随着互联网应用日益深入，我们正在产生无穷无尽的数据，这些数据类型不一致，而且规模庞大，往往给传统的存储架构带来极大的困扰。我们知道传统的存储系统往往采用了嵌入式系统架构，实际上都基于纵向扩展(Scale-up)的设计模式，也就是说，我们都是在一个既定的存储架构下去扩展与升级。当纵向扩展到一定程度时，系统就不可避免的遭遇性能瓶颈。这时候，我们就需要采购更多的存储系统或者更大的

2015-03-20 18:06:22 599

转载总结eclipse中安装maven插件

当自己越来越多的接触到开源项目时，发现大多数的开源项目都是用maven来够建的。并且在开发应用时，也越来越意识到maven的确会解决很多问题，如果你要了解maven，可以参考：Maven入门指南（一）和 Maven入门指南（二）。所以自己也学着使用maven。以下均参考的互联网上的内容，有的做了一些小的修改，并注明了出处。第一部分：原文链接maven3 安装：安

2015-03-20 17:08:16 414

转载推荐30款最佳的数据可视化工具

各个互联网公司通过大量的用户数据、信息进行统计分析，而这些大量繁杂的数据在经过可视化工具处理后，就能以图形化的形式展现在用户面前，清晰直观。随着各种数据的增加，这种可视化工具越来越得到开发者们的欢迎。下面推荐30款可视化工具供大家选择和使用。1.iChartsiCharts 提供了一个用于创建并呈现引人注目图表的托管解决方案。有许多不同种类的图表可供选择，每种类型都完全可定

2015-03-17 16:57:55 2420

转载 windows 下svn服务器的撘建

前提：1. 需要svn服务器安装包 svn-1.3.0-setup.exe 或 svn-win32-1.5.4.zip2. 客户端安装文件 Setup-Subversion-1.7.5.msi or TortoiseSVN-1.6.6.17493-win32-svn-1.6.6.msi 一、安装软件1.安装服务器到 d:\svnServer 下，或把

2015-03-14 19:36:07 384

转载 Hadoop、Spark、HBase与Redis的适用性讨论

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业，估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验，与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景（首先声明一点，本文中所指的Hadoop，是很“狭义”的Hadoop，即在

2015-03-14 19:34:56 576

转载 maven 工程简单打包

pom.xml CDR jar jar可以换成其他如 war zip == service projects org.apache.maven.plugins maven-jar-plugin 2.3.1 fa

2015-03-14 19:34:38 447

转载 Hbase 常用工具类

package com.hdyh.console.monitor.servlet; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apac

2015-03-14 19:33:55 481

转载 maven 服务搭建和使用

1.maven简介Maven是基于项目对象模型(POM)，可以通过一小段描述信息来管理项目的构建，报告和文档的软件项目管理工具。Maven这个单词来自于意第绪语，意为知识的积累，最早在Jakata Turbine项目中它开始被用来试图简化构建过程。当时有很多项目，它们的Ant build文件仅有细微的差别，而JAR文件都由CVS来维护。于是Maven创始者开始了

2015-03-14 19:32:53 539

转载 hbase api常用方法使用及预分区解决热点问题

API 操作：[java] view plaincopyimport java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import

2015-03-14 19:30:47 1264

转载 hbase 学习梳理

一、HBASE 简介HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop

2015-03-14 19:27:33 805

原创 hadoop2.2.0对应HBase安装说明

注：安装配套hadoop2.2.0版本的HBase,需要hbase-0.96.2-hadoop2-bin.tar.gz1、安装HBase（在hadoop1上）将hbase-0.96.2-hadoop2-bin.tar.gz上传到/usr/local目录下，并解压缩tar -zxf hbase-0.96.2-hadoop2-bin.tar.gz将解压缩后生成的文件重命名：mv

2015-03-14 18:26:55 568

原创 hadoop2.2.0安装

Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件，下载地址:http://apache.claz.org/hadoop/common/hadoop-2.2.0/，因为操作系统我选择的是CentOS-6.5-x86_64-bin-DVD1.iso所以需要下载hadoop的源码自己编译成64位的hadoop，至于编译过程本人还不太

2015-03-14 13:44:01 491

原创 ARN [main-SendThread(db99:2222)] zookeeper.ClientCnxn: Session 0x0 for server null, unexpected erro

1. 2014-07-21 17:24:36,310 WARN [main-SendThread(db99:2222)] zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnectjava.net.Connec

2015-03-10 23:01:34 2258

原创 MapReduce打包程序运行错误——Unsupported major.minor version 51.0解决办法

编译运行打包的MapReduce程序时，报如下错误：[root@hadoop1 bin]# yarn jar /home/czt/ocf_3h-0.0.1-SNAPSHOT-package.jar 105096 3 10 station @ 0 /czt/data/WMCF_OCF_LST_3H2015020612.DAT pmsc_fine_3h_15dayException in th

2015-03-10 16:55:58 1454

原创 hbase数据库错误总结 ——ERROR: Can't get master address from ZooKeeper; znode data == null

运行hbase shell时报错：hbase(main):001:0> listERROR: Can't get master address from ZooKeeper; znode data == nullHere is some help for this command:List all tables in hbase. Optional regular ex

2015-03-10 16:23:13 46879 6

原创 hbase数据库---slf4j-log4j12-1.6.4.jar包冲突

当启动hbase shell之后，报如下错误：[root@hadoop1 bin]# hbase shell2015-03-10 15:39:25,967 INFO [main] Configuration.deprecation: hadoop.native.lib is deprecated. Instead, use io.native.lib.availableHBase S

2015-03-10 16:19:23 3346

转载数据挖掘150道试题测测你的专业能力过关吗？

单选题1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A)(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A. Prec

2015-03-09 12:46:39 6822 1

原创程序开过多线程，导致hadoop作业无法运行成功——Call to hadoop1:9000 failed on lo cal exception: java.io.IOException: Coul

hadoop集群中某一个节点有时候起不来，查看log日志，有如下错误：2015-03-09 10:40:30,253 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to hadoop1:9000 failed on local exception: java.io.IOExc

2015-03-09 11:03:44 2715

原创 namenode启动不起来--9000端口被占用

格式化能通过，启动之后，通过jps发现只有namenode没有起来namenode的日志文件报地址已经使用1 用netstat查看是哪个进程占用端口，并将其杀死，再试看下行不2 配置namenode改个别的端口试试

2015-03-08 23:27:09 4581

转载设置Linux网络自动连接

Linux开机是网络默认是断开的，设置网络自动开机自动连接：右击网络链接图标-》 edit connections... -》选中“etho” 选择edit 出现下面的对话框把 connect automatically 选上即可。方法2 修改配置文件# vi /etc/sysconfig/network-scripts/ifcfg-eth0 将ONBO

2015-03-05 14:42:17 1278

原创 hadoop在linux系统下的集群时间同步

说明：由于hadoop集群对时间要求很高，所以集群内主机要经常同步。1.设置主机时间准确（任意机器都可）。//如果不需要同步网络时间则可以省略这一步1.1查看本机时间和时区（date）1.2设置时区（tzselect ;选择后执行cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime）（这里是redhat的修改时区，ubu

2015-03-05 13:12:45 1446

原创 Linux中如何查看修改系统的时间和时区

一、时间1、查看时间和日期date2、设置时间和日期将系统日期设定成1996年6月10日的命令date -s 06/22/96将系统时间设定成下午1点52分0秒的命令date -s 13:52:003. 将当前时间和日期写入BIOS，避免重启后失效hwclock -w二、时区1. 查看当前时区date -R2. 修改设置时区方法(1)

2015-03-05 11:07:34 595

转载 Maven环境的搭建

公司使用的是maven搭建的项目环境，所以maven接触的较多。避免以后忘了这方面的知识，所以记下来，也供大家参考。第一部分：安装maven1、下载。登陆maven官网 http://maven.apache.org/download.html 选择想要下载的版本，目前最高版本是3.0.3加入了一些新特性，因为项目原因我使用的是2.2.1。选择需要下载的版本对应的包

2015-03-02 15:22:34 409

转载 Kafka简要介绍

介绍： Kafka是一个高吞吐量的分布是消息系统，原本开发自LinkedIn，用作LinkedIn的活动流（activity stream）和运营数据处理管道（pipeline）的基础。现在它已为多家不同类型的公司作为多种类型的数据管道（data pipeline）和消息系统使用。现在Kafak作为apache的项目，被apache托管。

2015-03-02 15:21:08 1281

转载 cloudera Manager中监控数据的存储

Service Monitor 和 Host Monitor 角色在cloudera manager中存储了时间序列、健康数据、Impla查询和Yarn应用的元数据。经过查看相应的Cloudera Manager的存储连接，发现Service Monitor和Host Monitor的存储使用的是levelDB的解析类，由此可以推断出本地存储使用的是levelDB。LevelDB可以说是key

2015-03-02 15:19:29 2073

转载 Cloudera Manager和Managed Service的数据库

背景从业务发展需求，大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作，所以决定使用Cloudera Manager5.2.0版本和CDH5。以前搭建过Cloudera Manager4.8.2和CDH4，在搭建Cloudera Manager5.2.0版本的时候，发现相应的Service Host Monitor 和 Service Monitor不能

2015-03-02 15:18:23 792

转载自学大数据：用以生产环境的Hadoop版本比较

一、背景介绍生产环境中，hadoop的版本选择是一个公司架构之时，很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见，或者指正，希望大家能交流。Apache Hadoop：Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Had

2015-03-02 14:48:27 626

大数据技术杂谈