白乔-CSDN博客

转载大数据架构和模式

http://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.html第 1 部分: 大数据分类和架构简介概述大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征，包括数据的频率、量、速度、类型和真实性。处理并存储大数据时，会涉及到更多维度，比如治理、安全性和策略。选择一种架构并构

2016-03-14 12:10:41 28749

转载 Deep Learning（深度学习）学习笔记整理

http://blog.csdn.net/zouxy09/article/details/8775360一、概述 Artificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生“自我”的意识。是的，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但

2016-03-14 12:10:39 10986

转载如何组建一支优秀的数据分析团队？

http://www.36dsj.com/archives/38744Q：数据分析人员能做什么？A：从纷繁的数据里提炼出有价值的信息并给公司提供支持啊。Q：你怎么提炼啊？A：写程序采集啊，清洗啊，用一定的算法计算数据内部联系，根据业务做出判断啊……Q：如果都是用已有的算法，这些事情为什么不能用现成的流程来做呢？或者为什么不能写成程序，让机器自己实现呢？A：呃…………作为

2016-03-14 12:10:37 4320

转载 Hadoop可视化分析利器之Hue

http://qindongliang.iteye.com/blog/2212619先来看下hue的架构图：（1）Hue是什么？ Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。（2）Hue能干什么？ 1，访问HDFS和文件浏览 2，通过web调试和开发hive以及数据结果展示 3，查询solr和结果展示，报表生成 4，通过web调试和开发imp

2016-03-14 12:10:35 11567

转载关于烂代码的那些事

http://kb.cnblogs.com/page/526768/============上篇============　　1. 摘要　　最近写了不少代码，review了不少代码，也做了不少重构，总之是对着烂代码工作了几周。为了抒发一下这几周里好几次到达崩溃边缘的情绪，我决定写一篇文章谈一谈烂代码的那些事。这里是上篇，谈一谈烂代码产生的原因和现象。　　2. 写烂代码很容易　　刚

2016-03-14 12:10:32 5549 4

转载 6个用好大数据的秘诀

http://www.36dsj.com/archives/40815这篇文章里，有三位来自不同公司的大数据运营人员各自分享了他们运用大数据的经验。这三位是来自维亚康姆(Viacom)的Luzzi、Globys公司的Olly Downs以及知名市场顾问公司Dunnhumby的CEO Andy Hill。秘诀一：目标要明确就算一个公司拥有再多的数据，也不能代表它就一定会获得商业上的成功。

2016-03-14 12:10:30 1080

转载如何一步步从数据产品菜鸟走到骨干数据产品

【文章摘要】网上关于数据分析师的文章很多，但是关于数据产品经理的文章很少，所以经常有各个领域的垂直网站来和我交流，问我数据产品应该怎么做，人怎么培养，团队应该怎么建。所以我就把别人的问题、自己的回答，结合自身的成长经验，做了一个课程。　　　　一、数据产品工作简介：　　1. 数据产品经理的概念和范围：　　首先，思考两个问题：　　你心中的数据产品都包括哪些?　　你认为

2016-03-14 12:10:28 920

转载用平常语言介绍神经网络

http://wenku.baidu.com/link?url=23jM13V3Qe9Zx84FuEMebOMbTSk4i0Oaa5YPAVL1dfbSFC4G20GYDkUbbRvcJILgTGliXHPQgZqx5ToZscEOt0Iwp4eT71mRZhZ64USYk63用平常语言介绍神经网络(Neural Networks in Plain English) 因为我们没有能

2016-03-14 12:10:26 1741

转载从 LinkedIn 的数据处理机制学习数据架构

http://www.36dsj.com/archives/40584译者：伯乐在线-塔塔网址：http://blog.jobbole.com/69344/LinkedIn是当今最流行的专业社交网站之一，本文描述了LinkedIn是如何管理数据的。如你对文中的观点有异议亦或文中有遗漏的部分请随时告诉我。LinkedIn.com数据用例下面是一些数据用例，可能我们在浏览Linke

2016-03-14 12:10:24 1371

转载大道至简的数据分析方法论

http://www.36dsj.com/archives/40569作者：王桐永洪科技副总裁引言：你有没有觉得学习数据分析方法时很痛苦?本文，笔者用简单易懂的文笔总结出来一套易学易用的数据分析方法论，让初学者快速掌握数据分析方法中最核心、最常用的要点，至少能满足90%的日常需求。学习对大多数人而言是一件痛苦的事情，尤其看着厚厚的专业书籍、各种难以理解又缺乏解释说明的术语定义，会让

2016-03-14 12:10:21 840

转载网站常见的反爬虫和应对方法

http://www.36dsj.com/archives/40809在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活资本青睐创业机会多》里，我们曾经提到“在2016年，防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章，文章里主要介绍了常见的反爬虫应对方法，下面是正文。常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，

2016-03-14 12:10:19 1032

转载 Android开发学习笔记：Intent的简介以及属性的详解

http://liangruijun.blog.51cto.com/3061169/634411/一.Intent的介绍Intent的中文意思是“意图，意向”，在Android中提供了Intent机制来协助应用间的交互与通讯，Intent负责对应用中一次操作的动作、动作涉及数据、附加数据进行描述，Android则根据此Intent的描述，负责找到对应的组件，将 Intent传递给调用的组件

2016-03-14 12:10:17 677

转载跟我一起云计算（6）——openAPI

http://www.cnblogs.com/skyme/p/3435565.html介绍Open API即开放API,也称开放平台。所谓的开放API（OpenAPI）是服务型网站常见的一种应用，网站的服务商将自己的网站服务封装成一系列API（Application Programming Interface，应用编程接口）开放出去，供第三方开发者使用，这种行为就叫做开放网站的API，所

2016-03-14 12:10:15 2253

转载 Dubbo与Zookeeper、SpringMVC整合和使用（负载均衡、容错）

http://blog.csdn.net/congcong68/article/details/41113239 互联网的发展，网站应用的规模不断扩大，常规的垂直应用架构已无法应对，分布式服务架构以及流动计算架构势在必行，Dubbo是一个分布式服务框架，在这种情况下诞生的。现在核心业务抽取出来，作为独立的服务，使前端应用能更快速和稳定的响应。第一：介绍Dubbo背景

2016-03-14 12:10:13 1414

转载理解OAuth 2.0

http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html作者：阮一峰日期： 2014年5月12日OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为RFC 6749。一、应用场

2016-03-14 12:10:10 701

转载 MQTT学习笔记——MQTT协议体验 Mosquitto安装和使用

http://blog.csdn.net/xukai871105/article/details/392526530 前言 MQTT是IBM开发的一个即时通讯协议。MQTT是面向M2M和物联网的连接协议，采用轻量级发布和订阅消息传输机制。Mosquitto是一款实现了 MQTT v3.1 协议的开源消息代理软件，提供轻量级的，支持发布/订阅的的消息推送模式，使设备对设备之间的短消息通

2016-03-14 12:10:08 1593

转载 Android推送方案分析（MQTT/XMPP/GCM）

http://m.oschina.net/blog/82059本文主旨在于，对目前Android平台上最主流的几种消息推送方案进行分析和对比，比较客观地反映出这些推送方案的优缺点，帮助大家选择最合适的实施方案。方案1、使用GCM服务（Google Cloud Messaging）简介：Google推出的云消息服务，即第二代的G2DM。优点：Google提供的服务、原生、简单，无需实现和

2016-03-14 12:10:06 1280 1

转载 Apache kafka原理与特性(0.8V)

http://blog.csdn.net/xiaolang85/article/details/37821209前言: kafka是一个轻量级的/分布式的/具备replication能力的日志采集组件,通常被集成到应用系统中,收集"用户行为日志"等,并可以使用各种消费终端(consumer)将消息转存到HDFS等其他结构化数据存储系统中.因为日志消息通常为文本数据,尺寸较小,且对实时性以及数据

2016-03-14 12:10:04 558

转载 Apache Kafka监控之Kafka Web Console

http://www.iteblog.com/archives/1084Kafka Web Console是一款开源的系统，源码的地址在https://github.com/claudemamo/kafka-web-console中。Kafka Web Console也是用Scala语言编写的Java web程序用于监控Apache Kafka。这个系统的功能和KafkaOffsetMonit

2016-03-14 12:10:02 2382 2

转载 Kafka实现篇之消息和日志

http://blog.csdn.net/honglei915/article/details/37760631消息格式日志一个叫做“my_topic”且有两个分区的的topic,它的日志有两个文件夹组成，my_topic_0和my_topic_1,每个文件夹里放着具体的数据文件，每个数据文件都是一系列的日志实体，每个日志实体有一个4个字节的整数N标注消息的长度，后边跟着N个字节的

2016-03-14 12:10:00 2119

原创 kafka集群安装与配置

一、集群安装1. Kafka下载：可以从kafka官方网站（http://kafka.apache.org）上找到下载地址，再wgetwget http://mirrors.cnnic.cn/apache/kafka/0.8.2.2/kafka_2.10-0.8.2.2.tgz解压该文件： tar zxvf kafka_2.10-0.8.2.2.tgz注意kafka依赖于zoo

2016-03-14 12:09:58 919

转载 Kafka介绍及升级经验分享

http://blog.talkingdata.net/?p=3165背景当时的现状：开始使用Kafka的时候，使用的版本是0.7.2，当时的目的是为了替代kestrel，主要是使用Kafka来做消息传输中间件。Kafka解决了我们当时使用Kestrel遇到的最大的三个问题：吞吐量、数据量、一份数据多次消费。为什么要升级相比其它开源项目，Kafka的升级比较麻烦，其

2016-03-14 12:09:55 1911

转载 Kafka High Availability

http://www.haokoo.com/internet/2877400.htmlKafka在0.8以前的版本中，并不提供High Availablity机制，一旦一个或多个Broker宕机，则宕机期间其上所有Partition都无法继续提供服务。若该Broker永远不能再恢复，亦或磁盘故障，则其上数据将丢失。而Kafka的设计目标之一即是提供数据持久化，同时对于分布式系统来说，尤其当集群

2016-03-14 12:09:53 505

原创使用spark mllib识别LED数字

最近在学习spark mllib，突然有个想法，能否利用mllib来识别LED数字呢？说干就干，先在纸上画出了0-9的LED显示，然后教儿子怎么把每个数字转成一个向量：然后准备一个文本文件labeled-points.txt：(0,[1,1,1,0,1,1,1])(1,[0,0,1,0,0,1,0])(2,[1,0,1,1,1,0,1])(3,[1,0,1,1,0,1,1])(4,[0,1,

2016-03-13 21:41:17 3081

http://www.wtoutiao.com/p/18d5RY0.html在LinkedIn的数据基础设施中，Kafka是核心支柱之一。来自LinkedIn的工程师曾经就Kafka写过一系列的专题文章，包括它的现状和未来、如何规模化运行、如何适应LinkedIn的开源策略以及如何适应整体的技术栈等。近日，来自LinkedIn的高级工程主管Kartik Paramasivam撰文分享了他们使用和优

2016-01-09 11:20:08 2312

转载 Apache Kafka：下一代分布式消息系统

http://www.wtoutiao.com/p/Ef6Jmn.htmlKafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展，“Kafka剖析”专栏将会从架构设计、实现、应用

2016-01-09 10:50:15 954

转载 apache kafka系列之-监控指标

原文地址：http://blog.csdn.net/lizhitao/article/details/245819071、监控目标 1.当系统可能或处于亚健康状态时及时提醒，预防故障发生 2.报警提示 a.短信方式 b.邮件2、监控内容2.1 机器监控Kafka服务器指标CPU LoadDisk IOMemory磁盘log.dirs目录下数据文件大小,要有定时清除策略2.2 JVM监控主要监控JA

2016-01-09 10:42:25 3024

原创自动恢复被挂掉的hbase region server

最近老遇到hbase的regionserver自动挂掉的情况日志总是看不出什么原因不得已弄了个定时任务，任务的脚本类似是：pssh -H "bluejoe1 bluejoe2..." "/usr/local/hbase/bin/hbase-daemon.sh start regionserver"加入定时任务，让它隔10分钟执行一次：crontab -e10,20,30,40,50,0 * *

2015-11-15 17:58:23 3403 2

原创 beeline连接hive server遭遇MapRedTask (state=08S01,code=1)错误

采用beeline连接hive server是遭遇到如下错误：5: jdbc:hive2://bluejoe0/default> select * from hive_triples where subject='' limit 1;Error: Error while processing statement: FAILED: Execution Error, return code 1 fr

2015-11-15 17:39:11 26179 2

原创 sqoop-1.4.6安装配置

1. 下载sqoop-1.4.6并解压wget http://archive.apache.org/dist/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gztar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gzln -s /root/sqoop-1.4.6.bin__hadoop

2015-11-14 20:58:18 5888 1

原创 spark RDD的元素顺序（ordering）测试

scala> val rdd = sc.makeRDD((0 to 9), 4)scala> rdd.collectres27: Array[Int] = Array(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)scala> rdd.partitionsres13: Array[org.apache.spark.Partition] = Array(org.apache.spar

2015-10-13 23:22:36 8767

转载常用Maven插件介绍

http://www.cnblogs.com/crazy-fox/archive/2012/02/09/2343722.html我们都知道Maven本质上是一个插件框架，它的核心并不执行任何具体的构建任务，所有这些任务都交给插件来完成，例如编译源代码是由maven- compiler-plugin完成的。进一步说，每个任务对应了一个插件目标（goal），每个插件会有一个或者多个目标，例如maven

2015-10-09 21:05:50 985

转载 Spark SQL 1.3.0 DataFrame介绍、使用

http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=11.DataFrame是什么？2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame？4.如何使用DataFrame？5.在1.3.0中，提供了哪些完整的数据写入支持API？自2013年3月面世以来，Spark SQL已经成为除Spark Core

2015-10-07 19:38:23 4449

原创 SparkSQL之数据源

准备json文件：cat /root/1.json{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}可以尝试传统方法：val people = sqlContext.read.json("file:///root/1.json");people.printSchema();people.registe

2015-10-07 18:40:07 1759

原创 spark集成hive遭遇mysql check失败的问题

问题： spark集成hive，启动spark-shell或者spark-sql的时候，报错：INFO MetaStoreDirectSql: MySQL check failed, assuming we are not on mysql: Lexical error at line 1, column 5. Encountered: "@" (64), after : "".环境： spa

2015-10-05 13:14:52 2021

原创 hive启动报错： Found class jline.Terminal, but interface was expected

故障：[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactory.cre

2015-10-04 21:26:51 4977 2

原创 hive,spark的远程调试设置

spark的远程调试spark-env.sh文件里面，加上下面配置即可：if [ "$DEBUG_MODE" = "true" ]; then export SPARK_JAVA_OPTS+="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8000"fihive的远程调试设置Hive 0.8 以上版

2015-10-03 18:46:13 4070

原创【白乔原创】写二十年的代码是一种什么样的体验？

70后老人，来自皖南山区纯的农村娃，大学之后才有的编程经历受前面一个兄弟的启发，截点图说说自己的这段历程，后面有时间再补充文字：）>>>>>>>1995年第一次接触到计算机编程，机械制造专业当然是FORTRAN了~~~依稀还记得第一次上课前天晚上对床

2015-10-02 21:52:10 4355 4

转载 Spark SQL之External DataSource外部数据源

http://blog.csdn.net/oopsoom/article/details/42061077一、Spark SQL External DataSource简介随着Spark1.2的发布，Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口，来让开发者可以实现。这使得Spark SQL支持了更多的类型数据源，如json, parquet,

2015-10-02 11:53:47 5511

转载 Hive over HBase和Hive over HDFS性能比较分析

http://superlxw1234.iteye.com/blog/2008274环境配置：hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较： query1: select

2015-08-20 20:56:40 4419 1

pdsh-2.26源文件

pdsh的全称是parallel distributed shell，与pssh类似，pdsh可并行执行对远程目标主机的操作，在有批量执行命令或分发任务的运维需求时，使用这个命令可达到事半功倍的效果。同时，pdsh还支持交互模式，当要执行的命令不确定时，可直接进入pdsh命令行，非常方便。

2017-02-06

oauth2的示例工程源代码spring-security-oauth-samples（含war包）

oauth2的示例工程源代码，含build好的war包来源于github，但build会很耗时间直接取出2个target目录下的war文件改名为tonr2.war和sparklr2.war 置于webapps下启动tomcat后，访问http://localhost:8080/tonr2 即可体验演示工程

2016-02-15

java反编译器的GUI版本：jd-gui

很好的java反编译器，忘掉eclipse插件吧：）本人的eclipse无论安装哪种java反编译器，总是失败~~~ 绝望中找到jd-gui jd-gui可以关联上eclipse中的.class文件并自动在左侧的目录视图中打开class文件所在的目录同时支持各个class之间的跳转 http://jd.benow.ca/

2015-02-25