- 博客(18)
- 资源 (4)
- 收藏
- 关注
转载 大数据从雏形到发展,详述传统数据仓库到大数据平台的转化及大数据的可视化应用
问题导读:1. 为什么要建设大数据平台?2. 大数据平台的业务架构有哪几块?3. 数据可视化的原因是什么?4. 数据可视化的意义在于什么?本文是58同城信息系统部高级经理余中洋对大数据在互联网行业应用的总结。以实际经验讲解了大数据从雏形到发展,以及发展过程中传统数据仓库到大数据平台的转化和大数据的可视化应用。大数据显雏形——发展所有公司在
2016-12-26 11:26:18 1380
转载 SQL on Hadoop性能瓶颈点分析及解决方法总结
0. 概述要正确的优化SQL,必须能快速定位性能瓶颈点,或者说快速找到SQL主要的开销所在。最慢的设备通常是瓶颈点的成因,如文件下载时的瓶颈点可能是网络速度,本地文件复制时的瓶颈点可能在于硬盘性能。为了快速找到SQL的性能瓶颈点,首先需要读者对各种设备的性能数据有一些基本的认识,如千兆网络带宽是1000Mbps,硬盘转速为每分钟7200/10000转等。下图数据
2016-12-26 10:46:57 1365
转载 Oracle Grid Infrastructure架构
Grid Infrastructure包含两个最主要的组件:Clusterware集群软件和ASM存储软件。Clusterware是Oracle的集群解决方案,ASM是Oracle的存储解决方案,这两大方案的数据库共同构成了RAC高可用解决方案。11gR2中的ASM存储管理软件从Database DBMS脱离出来进行单独的部署,并进行了增强和扩展,ASM使用独立的用户和权限进行管理,形成了
2016-12-21 16:11:11 4755
原创 Oracle clusterware
Oracle clusterwareclusterware和RAC的关系: 狭义上,RAC指借助“某种集群件”搭建出来的一个“多实例、单数据库”的环境,这里的集群件可以是 Oracle clusterware、Sun cluster等clusterware把分布式主机虚拟成一个计算机,RAC把分布式实例虚拟成一个实例。clusterware向下管理硬件资源,向上为RAC提供服务
2016-12-21 16:05:23 1488
原创 oracle rac和分布式数据库的区别
分布式数据库是多个数据库,而rac只是一个库多个实例;rac事务上没有协调的问题,而分布式数据库由于是多个库需要事务上的协调;分布式数据库数据是分散存储在各个节点,但是设备一般都是廉价的设备,经常出现节点故障,不过对用户来说是透明的;RAC是ORACLE集群,数据是共享存储,只有一份,每个节点都不存放数据。节点可以宕,但是数据不会丢失;分布式数据库支持的节点多,增加节点基本为线性增加;rac支持的
2016-12-21 11:53:38 12515
原创 oracle dblink跨库访问的问题
oracle 的dblink也能跨数据库访问,但是效率方面就差很多,尤其是跨dblink做表连接的时候
2016-12-21 11:13:26 1041
原创 shell脚本将多行合并为一行
文本内容:$cat test.txt0010020030040050060000999需要格式化成:001 002 003 004 005 006 0000999使用paste命令格式化打印,-d指定分隔符,-s表示合并成一行:paste -d" " -s -
2016-12-13 16:52:57 10601
原创 shell 删除指定字符串
sed -e '/abc/d' a.txt // 删除a.txt中含"abc"的行,但不改变a.txt文件本身,操作之后的结果在终端显示sed '/abc/d;/efg/d' a.txt > a.log // 删除含字符串"abc"或“efg"的行,将结果保存到a.log
2016-12-13 16:38:18 5054
原创 shell 脚本截取指定分隔符的第几项
打开/etc/passwd文件取前五行cat /etc/passwd|head -n 5root:x:0:0:root:/root:/bin/bashdaemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologinbin:x:2:2:bin:/bin:/usr/sbin/nologinsys:x:3:3:sys:/dev:/usr/sbin/nol
2016-12-13 15:59:04 5719
转载 voltdb常用命令以及常用概念和常用方法
https://my.oschina.net/u/2308739/blog/6894271、创建数据库 voltdb create;##注意这个命令是初始化数据库的意思,所以,如果你之前初始化过,再用的话,会将之前文件删除的,回到初始状态。2、关闭数据库 voltadmin shutdown;3、暂停数据库 voltadmin pause #
2016-12-08 17:08:41 4200 1
转载 NewSQL数据库VoltDB特性简介
VoltDB是一个革命性的新型数据库产品,被称作NewSQL数据库。它基于H-Store,号称比当前数据库产品的吞吐量高45倍,同时又具有很高的扩展性。它的特性主要有以下几点:高吞吐、低延迟:通过内存计算,存储过程和串行数据访问实现。可扩展性:自动分区和复制,保证性能和可扩展性。高可用性:同步的多主复制(在VoltDB中叫K-safety)。持久化:数据库快照与命令
2016-12-08 10:53:38 621
原创 java 的JUnit4 中@AfterClass @BeforeClass @after @before的用法
@Before:初始化方法 对于每一个测试方法都要执行一次(注意与BeforeClass区别,后者是对于所有方法执行一次)@After:释放资源 对于每一个测试方法都要执行一次(注意与AfterClass区别,后者是对于所有方法执行一次)@Test:测试方法,在这里可以测试期望异常和超时时间 @Test(expected=ArithmeticException.class)检查被
2016-12-07 17:50:33 2474
转载 Hadoop-Impala让分区最优化的方法
1.1 Hadoop-Impala十大优化系列之(1)—分区表优化-8个方法让分区最优化impala表分区 默认情况下,表中的所有数据文件都位于一个目录中。分区是在加载过程中基于从一个或多个列的值的物理上划分数据的技术,以加快对这些列进行测试的查询。例如,一个school_records表分区在年柱,各有不同的年值一个单独的数据目录,所有这一年的数据是存储在目录中的数据文
2016-12-07 14:58:24 4231
转载 改善机器学习预测模型的技巧
概述本备忘单的目的是为你提供一些提升机器学习性能的想法。要获得突破,你所需要的可能就是其中的一个。找到你要的那个,然后回来,再找下一个再提升。我把这份清单分为4个子主题:基于数据改善性能借助算法改善性能用算法调参改善性能借助模型融合改善性能清单越往下,你获得的增益可能越小。比如,对问题场景重新设立框架或者更多的数据通常比对最好的算法进行调参得到收
2016-12-07 14:30:18 1710
转载 HBase数据模型特性及表设计思路
HBase是一个开源可伸缩的针对海量数据存储的分布式nosql数据库,它根据Google Bigtable数据模型来建模并构建在hadoop的hdfs存储系统之上。它和关系型数据库Mysql, Oracle等有明显的区别,HBase的数据模型牺牲了关系型数据库的一些特性但是却换来了极大的可伸缩性和对表结构的灵活操作。在一定程度上,Hbase又可以看成是以行键(Row Key),列标识(co
2016-12-07 14:25:01 568
翻译 Using VoltDB About This Book
This book is a complete guide to VoltDB. It describes what VoltDB is, how it works, and — more importantly — how to use it to build high performance, data intensive applications. The book is divided i
2016-12-05 10:29:53 488
数据治理知识体系.xmind
2021-01-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人