大数据
文章平均质量分 73
笛香幽谷(欧锐)
佛经所到之处,即为有佛
展开
-
数据分析流程分解~MAU空间探查分析 多角色协同图
致广大而尽精微,极高明而道中庸本文目的现在人人都在喊数字化,在企业数字化过程,需要分析一下本企业的线上线下的用户MAU的空间,很多同学认为实现这个是很简单的事情,但是真的是一个很简单的事情吗?这里面会涉及到哪些人和事?完成这项任务需要什么样的能力?本文先使用一张多角色的工作流程图,看一下完成一个企业的MAU空间分析,需要设计到哪里角色?当前的工作模式存在什么问题?现实很骨感,理想很丰满,只有对现实中的数据分析每个一个节点有令人发指的了解,才能知道怎么样去优化流程,怎么样去解决问题。这个图里面蕴含着大智原创 2020-12-28 10:58:34 · 364 阅读 · 0 评论 -
情景分析是什么?我们该如何去理解这个概念?
图片主要参考了这个视频,感谢这位小姐姐的贡献。https://www.bilibili.com/video/av370705348/研究目的了解什么是情景分析? 判断这个分析是否有借鉴的地方?亮剑里面有这么一段,我认为的情景分析:丁伟的毕业论文题目是《论我国国土的防御重点》,熟悉历史的朋友清楚,当时我国和苏联是兄弟国家,苏联正在大力扶持我国的工业。但是国与国没有永恒的朋友,只有永恒的利益,丁伟创造性的把苏联想象成可以对我国构成威胁的c国,并提出防御的必要性和防御方法,他的论...原创 2020-12-07 21:36:12 · 3113 阅读 · 0 评论 -
什么是数据分析?数据分析概念如何推演?
什么是数据分析?如果从概念去推演什么是数据分析,数据分析的本质是什么?1.推演目的迷迷糊糊,每天都在做这件事,而没有去思考这件事件背后的定义和本质,走了很远的路,忘记了当初为什么出发,自己已经习惯性往前冲,忘记了为何而冲,为何而生,呜呼哀哉;生活如此,工作亦如此;不掌握分析本质,怎么样努力业务也是徒劳,原来人家指定的路,开始是一条阳光大道,但是慢慢经过演变,已经变成了崎岖野径;自己不知晓;2.推演结论数据有可能没有真实反应事物包含的信息,要批判性选择和相信数据;数据分析的前置条件是需要有原创 2020-12-03 09:38:19 · 1493 阅读 · 0 评论 -
spark2.1.0 on yarn with CDH5.8.0 安装实战
Spark 版本发布很快,CDH集成最新Spark版本需要一定时间,并且CDH 集成的Spark版本不支持Spark-sql。本文档的目的在目前cdh平台集成最新spark,方便测试和使用最新功能。原创 2017-03-30 17:36:53 · 5606 阅读 · 0 评论 -
RISELab 之 Ray介绍
RISELAB 出品的Ray介绍原创 2017-04-07 13:50:44 · 2518 阅读 · 0 评论 -
Docker 安装 TensorFlow GPU 实战
安装背景AI如雨后春笋般的出现,DEVOPS的理论不断深入。所有高大上的开源产品都支持两个环境:docker 和Linux。本文主要讲解怎么在一台安装了GPU的centos7 环境安装tensorflow docker镜像。国内就几个大厂的同学可以享受这种高级环境待遇,如果您有该环境建议尝试起来吧,毕竟AI可以让我们多一项skill。安装nvidia-dockernvidia 对docker进行了一原创 2017-03-27 11:55:01 · 24771 阅读 · 2 评论 -
CDH Gateway docker实战
将CDH gateway 安装到docker里面。原创 2017-01-24 11:45:13 · 4027 阅读 · 1 评论 -
cdh5.7.1 +kerberos + livy server v0.2.0 安装测试步骤
Livy 是一个开源的 REST接口,负责和Apache Spark进行交互。 支持执行片段代码和程序在一个Spark context 里面,可以运行在locally 或者 Apache Hadoop Yarn 模式。 交付式 Scala、Python和R shell 批量提交 Scala、java、Python 多用户可以共享一个server(模拟支持) 可以在任何地方使用REST原创 2016-12-20 09:42:56 · 3777 阅读 · 1 评论 -
Spark 1.6.3 thriftServer 支持 ldap 配置
hive-site.xml配置[idc_xudalei1@CDNDC-213128087 conf]$ cat hive-site.xml <?xml version="1.0" encoding="UTF-8"?><!--Autogenerated by Cloudera Manager--><configuration> <property> <name>hive.metas原创 2016-11-11 10:48:41 · 2119 阅读 · 0 评论 -
spark 源码里面的sealed trait 存在原因
spark 源码里面的sealed trait 存在原因原创 2016-04-15 16:28:10 · 980 阅读 · 0 评论 -
Spark 1.5.2 on yarn升级问题总结
Spark 1.4.0 standlone升级到Spark 1.5.2 on yarn问题总结原创 2016-04-15 15:33:39 · 5699 阅读 · 0 评论 -
HDFS encryption 实战之背景和架构介绍
KMS背景在全世界,为零满足隐私和其他安全需求,很多政府部门、金融部门和管理单位强制要求数据加密。本文主要介绍了HDFS、KMS的概念和架构。原创 2017-04-12 14:18:59 · 2541 阅读 · 0 评论 -
CDH5.7.1 Hadoop2.6 HDFS Encryption KMS 实战之功能测试
hdfs、kms、hadoop、CDH原创 2017-04-11 16:41:53 · 2778 阅读 · 0 评论 -
Apache Spark 读写Apache ignite 代码实战
package com.zhw.bigdata.ignite;import org.apache.ignite.spark.IgniteDataFrameSettings;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;im...原创 2018-11-21 14:09:31 · 1064 阅读 · 0 评论 -
Python采集Yarn Queue信息
本文通过python代码调用Yarn restfull API ,将各队列的vcore和memory定时采集存储到TIDB,然后使用Apache Zeppelin JDBC读取数据,简单绘制vcore和memory使用率的趋势图。可以观察集群vcore和memory的分配情况,防止其中一项成为集群或者队列的性能瓶颈。一、python代码: import jsonimpo...原创 2018-11-20 19:47:15 · 2023 阅读 · 0 评论 -
Spark SQL 操作Apache ignite 代码实战
package com.zhw.bigdata.ignite;import org.apache.ignite.spark.IgniteDataFrameSettings;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;im...原创 2018-10-29 19:22:59 · 543 阅读 · 0 评论 -
使用Spark Mlib K-Means算法分析网络攻击数据
package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, Spar...原创 2018-08-20 21:58:42 · 740 阅读 · 0 评论 -
给老板减刑系列之hadoop 安全缺陷分析之一:kerberos 的缺陷
最近看了Steve Loughran先生写的本书《Hadoop and Kerberos: The Madness Beyond the Gate》,幽默的写作风格幽默风趣,但是国内对大数据平台的安全考虑的文章的确较少,本系列文章主要是分析Hadoop安全现状和源码,个人能力有限,麻烦各位大神及时斧正。原创 2017-06-18 19:52:07 · 2991 阅读 · 3 评论 -
docker+centos7+nginx1.2.0+ldap +jupyter实战
最近在搭建JupyterHub 的时候遇到只支持python3,为了满足在大数据平台需要python2的问题,只能选择搭建Jupyter,但是Jupyter不支持ldap权限认证,只能使用Nginx 对jupyter端口镜像权限认证。本文主要分析怎么制作和部署centos7 docker images,在docker里面编译部署nginx 并包含ldap模块,然后再分析怎么配置jupyter。原创 2017-05-09 15:50:07 · 4026 阅读 · 0 评论 -
基于kubernetes1.6.0+Zeppelin0.7.1 实战
基于kubernetes平台的Zeppelin自助式分析工具实战原创 2017-05-18 11:21:46 · 924 阅读 · 0 评论 -
HBase region is not online 问题修复
一年多没有搞HBase了,回想前年和营神一起的日子,~~~。今天同事遇到下面一个问题:hbase(main):002:0> get 'mynamespace:user_basic_info','BAC3510A922CF026500874EA3975E123'COLUMN CELL ERROR: org.apache.hadoop.hbase.NotServingRegionException:原创 2017-04-06 11:18:03 · 16738 阅读 · 3 评论 -
Scala future 回调函数方法
结果输出:[info] Running org.learningconcurrency.ch4.FuturesCallbacksrun-main-0: callbacks installed, continuing with other work[success] Total time: 4 s, completed 2016-3-20 9:21:34> ForkJoinPool-1-w翻译 2016-03-20 09:28:14 · 3120 阅读 · 0 评论 -
Spark SPARK_WORKER_DIR 磁盘满
这两天测试Standlone模式下Spark streaming SPARK_WORKER_DIR目录的磁盘老是爆,下面三个日志rolling参数记得设置: spark.executor.logs.rolling.strategy size spark.executor.logs.rolling.maxSize 134217728 #default byte spark.executor.logs.rolling.maxRetainedFiles原创 2015-12-17 17:25:00 · 2966 阅读 · 0 评论 -
MapReduce源代码研究1
今天自己研究hadoop MapReduce 代码,x原创 2014-04-23 10:26:05 · 1136 阅读 · 0 评论 -
KVM优化
第1章 KVM1.1 架构图表 1 1 KVM基本架构图1. kvm 驱动:主要负责虚拟机创建,虚拟内存分配,VCPU寄存器读写以及VCPU运行;2. Qemu:用于模拟虚拟机的用户空间组件,提供I/O设备模型,访问外设的途径。kvm已经是内核模块,被看作是一个标准的linux 字符集设备(/dev/kvm)。Qemu通过libkvm应用程序接口,用fd通过ioctl向设备原创 2014-03-26 12:57:18 · 1572 阅读 · 0 评论 -
MapReduce combiner阶段 与shuffle阶段的区别
combiner阶段 shuffle阶段翻译 2014-05-05 13:40:26 · 3701 阅读 · 0 评论 -
HDFS centralized cache management
Hadoop 2.3.0解决了如下几个问题:翻译 2014-05-04 10:18:15 · 945 阅读 · 0 评论 -
hadoop2.2 在centos6.4上建立伪分布式集群
解压数据包原创 2014-05-04 14:40:18 · 1260 阅读 · 0 评论 -
ceph架构学习1
本次文档详细学习ceph官网架构文档,网址为:http://ceph.com/docs/master/architecture/ 先关注一下ceph的API类型:librados是rados的 library,可以支持C,C++,Java,Python,Rubby和php;radosgw是基于通的REST网关,兼容S3和和Swift接口;rbd 是稳定的全分布式块设备,支持li原创 2014-03-20 09:08:18 · 1654 阅读 · 0 评论 -
ceph基础研究(2)
上篇研究了ceph的基础,今天继续阅读官网,记录基础知识。大家有什么不懂,欢迎留言,共同学习。。。 本次主要分析对象存储的内容,研究点为:http://ceph.com/docs/master/rados/ 可以使用下面命令,禁止osd将数据先写到硬盘缓存,直接写到硬盘。sudo hdparm -W 0 /dev/hda 0 目前官网推荐的ceph使用的文件系统是原创 2014-03-18 13:06:43 · 915 阅读 · 0 评论 -
ceph基础研究
去年9月份团队开始研究ceph,我因为研究hadoop,没有经历投入,现在开始研究ceph替代hdfs可行性问题,不知道业内有这样做的吗?我最担心的就是Yarn和ceph本地计算问题,可能会改Yarn的源代码。本次研究是基于hadoop2.0的,希望我能够坚持下来,完成这个项目吧。接下来记录一些博文,本质是改变一下个人的学习习惯,记录一些关键问题,希望大家多提宝贵意见哦,个人邮箱:49416511原创 2014-03-17 17:07:07 · 1650 阅读 · 0 评论 -
linux 网卡zero copy 学习总结
linux 2.6版的内核,网络数据从网线到应用程序需经过3次copy,分别是:1. 网线上的电信号经过网卡驱DMA到网卡的环形FIFO里;2. 从网卡的接收环形FIFO里copy到TCP/IP协议栈的sk_buff里;3. 应用程序的socket调用recv()函数从协议栈的buffer里copy到用户进程的buffer里。sk_buff的重要数据结构 /*原创 2013-12-24 11:04:37 · 1316 阅读 · 0 评论 -
hadoop 支持的数据类型
由于在hadoop需要将key/value对序列化,然后通过网络network发送到集群中的其他机器上,所以说hadoop中的类型需要能够序列化。具体而言,自定义的类型,如果一个类class实现了Writable interface的话,那么这个可以作为value类型,如果一个class实现了WritableComparable interface的话,那么这个class可以作为value原创 2013-10-07 20:42:31 · 1219 阅读 · 0 评论 -
spark单机版搭建记录
关闭防火墙service iptables stop && chkconfig iptables off原创 2014-06-25 13:12:33 · 2172 阅读 · 0 评论 -
cassandra cqlsh代码分析
cassandra2.0 推出了cqlsh2.0,提供了类似cql的功能。cqlsh 将查询消息发送给了thrift接口,然后后进行查询。文章分析了cqlsh Python脚本代码。后续文章会继续分析cassandra读写流程代码。原创 2014-08-26 11:07:17 · 2350 阅读 · 0 评论 -
Spark1.5.2 on yarn fair scheduler 配置
1.fair scheduler 配置 FAIR 1 2 FIFO 2 3 FAIR 2 3 FAIR 1 3 2.代码提交mport org.apache.spark.SparkConfimport org.apache.sp原创 2015-11-19 15:20:26 · 1498 阅读 · 0 评论 -
Spark aggregator ExternalIterator 流程图
Spark aggregator ExternalIterator 流程图原创 2015-11-26 19:31:29 · 782 阅读 · 0 评论 -
Spark1.5.2 on Hadoop2.4.0 安装配置
一、 前言 本文简单介绍yarn安装,主要介绍spark1.5.2on yarn模式安装,仅供参考。 二、 yarn配置1. yarne.xmlyarne.xml需要添加的配置如下: yarn.nodemanager.aux-services mapreduce_原创 2015-11-18 10:38:21 · 1340 阅读 · 0 评论 -
Spark 添加复用JDBC Schema功能
用户需要阅读大量相同的数据库表,比如相同schema的表有1000张(比如对mysql进行分表分库)需要全读,每次建立dataframe的时候需要通过jdbcrelation去读每一张表的schema,消耗了大量时间。本文对提出一种修改办法,如果用户知道表的sechema相同,可以使用sechema复用。原创 2015-11-18 11:19:29 · 2256 阅读 · 0 评论 -
HDFS HA切换后missing block问题分析
HDFS HA切换后missing block问题分析原创 2015-05-31 21:03:31 · 6167 阅读 · 1 评论