2016年12月_数据文字工作者

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载大数据从雏形到发展,详述传统数据仓库到大数据平台的转化及大数据的可视化应用

问题导读：1. 为什么要建设大数据平台？2. 大数据平台的业务架构有哪几块？3. 数据可视化的原因是什么？4. 数据可视化的意义在于什么？本文是58同城信息系统部高级经理余中洋对大数据在互联网行业应用的总结。以实际经验讲解了大数据从雏形到发展，以及发展过程中传统数据仓库到大数据平台的转化和大数据的可视化应用。大数据显雏形——发展所有公司在

2016-12-26 11:26:18 1380

转载 SQL on Hadoop性能瓶颈点分析及解决方法总结

0. 概述要正确的优化SQL，必须能快速定位性能瓶颈点，或者说快速找到SQL主要的开销所在。最慢的设备通常是瓶颈点的成因，如文件下载时的瓶颈点可能是网络速度，本地文件复制时的瓶颈点可能在于硬盘性能。为了快速找到SQL的性能瓶颈点，首先需要读者对各种设备的性能数据有一些基本的认识，如千兆网络带宽是1000Mbps，硬盘转速为每分钟7200/10000转等。下图数据

2016-12-26 10:46:57 1365

转载 Oracle Grid Infrastructure架构

Grid Infrastructure包含两个最主要的组件：Clusterware集群软件和ASM存储软件。Clusterware是Oracle的集群解决方案，ASM是Oracle的存储解决方案，这两大方案的数据库共同构成了RAC高可用解决方案。11gR2中的ASM存储管理软件从Database DBMS脱离出来进行单独的部署，并进行了增强和扩展，ASM使用独立的用户和权限进行管理，形成了

2016-12-21 16:11:11 4755

原创 Oracle clusterware

Oracle clusterwareclusterware和RAC的关系：狭义上，RAC指借助“某种集群件”搭建出来的一个“多实例、单数据库”的环境，这里的集群件可以是 Oracle clusterware、Sun cluster等clusterware把分布式主机虚拟成一个计算机，RAC把分布式实例虚拟成一个实例。clusterware向下管理硬件资源，向上为RAC提供服务

2016-12-21 16:05:23 1488

分布式数据库是多个数据库，而rac只是一个库多个实例；rac事务上没有协调的问题，而分布式数据库由于是多个库需要事务上的协调；分布式数据库数据是分散存储在各个节点，但是设备一般都是廉价的设备，经常出现节点故障，不过对用户来说是透明的；RAC是ORACLE集群，数据是共享存储，只有一份，每个节点都不存放数据。节点可以宕，但是数据不会丢失；分布式数据库支持的节点多，增加节点基本为线性增加；rac支持的

2016-12-21 11:53:38 12515

原创 oracle dblink跨库访问的问题

oracle 的dblink也能跨数据库访问，但是效率方面就差很多，尤其是跨dblink做表连接的时候

2016-12-21 11:13:26 1041

原创 oracle database 11g安装linux系统参数要求

从oracle快速安装指南获得系统配置参数的最小值：

2016-12-20 11:15:41 495

原创 oracle体系结构

实例是运行在计算机内存中的一组进程，这些进程提供对Oracle Database 11g中各个文件的访问

2016-12-19 16:01:00 444

原创 shell脚本将多行合并为一行

文本内容：$cat test.txt0010020030040050060000999需要格式化成：001 002 003 004 005 006 0000999使用paste命令格式化打印，-d指定分隔符，-s表示合并成一行：paste -d" " -s -

2016-12-13 16:52:57 10601

原创 shell 删除指定字符串

sed -e '/abc/d' a.txt // 删除a.txt中含"abc"的行，但不改变a.txt文件本身，操作之后的结果在终端显示sed '/abc/d;/efg/d' a.txt > a.log // 删除含字符串"abc"或“efg"的行，将结果保存到a.log

2016-12-13 16:38:18 5054

原创 shell 脚本截取指定分隔符的第几项

打开/etc/passwd文件取前五行cat /etc/passwd|head -n 5root:x:0:0:root:/root:/bin/bashdaemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologinbin:x:2:2:bin:/bin:/usr/sbin/nologinsys:x:3:3:sys:/dev:/usr/sbin/nol

2016-12-13 15:59:04 5719

转载 voltdb常用命令以及常用概念和常用方法

https://my.oschina.net/u/2308739/blog/6894271、创建数据库 voltdb create;##注意这个命令是初始化数据库的意思，所以，如果你之前初始化过，再用的话，会将之前文件删除的，回到初始状态。2、关闭数据库 voltadmin shutdown;3、暂停数据库 voltadmin pause #

2016-12-08 17:08:41 4200 1

转载 NewSQL数据库VoltDB特性简介

VoltDB是一个革命性的新型数据库产品，被称作NewSQL数据库。它基于H-Store，号称比当前数据库产品的吞吐量高45倍，同时又具有很高的扩展性。它的特性主要有以下几点：高吞吐、低延迟：通过内存计算，存储过程和串行数据访问实现。可扩展性：自动分区和复制，保证性能和可扩展性。高可用性：同步的多主复制(在VoltDB中叫K-safety)。持久化：数据库快照与命令

2016-12-08 10:53:38 621

原创 java 的JUnit4 中@AfterClass @BeforeClass @after @before的用法

@Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次）@Test：测试方法，在这里可以测试期望异常和超时时间 @Test(expected=ArithmeticException.class)检查被

2016-12-07 17:50:33 2474

转载 Hadoop-Impala让分区最优化的方法

1.1 Hadoop-Impala十大优化系列之（1）—分区表优化-8个方法让分区最优化impala表分区默认情况下，表中的所有数据文件都位于一个目录中。分区是在加载过程中基于从一个或多个列的值的物理上划分数据的技术，以加快对这些列进行测试的查询。例如，一个school_records表分区在年柱，各有不同的年值一个单独的数据目录，所有这一年的数据是存储在目录中的数据文

2016-12-07 14:58:24 4231

转载改善机器学习预测模型的技巧

概述本备忘单的目的是为你提供一些提升机器学习性能的想法。要获得突破，你所需要的可能就是其中的一个。找到你要的那个，然后回来，再找下一个再提升。我把这份清单分为4个子主题：基于数据改善性能借助算法改善性能用算法调参改善性能借助模型融合改善性能清单越往下，你获得的增益可能越小。比如，对问题场景重新设立框架或者更多的数据通常比对最好的算法进行调参得到收

2016-12-07 14:30:18 1710

转载 HBase数据模型特性及表设计思路

HBase是一个开源可伸缩的针对海量数据存储的分布式nosql数据库，它根据Google Bigtable数据模型来建模并构建在hadoop的hdfs存储系统之上。它和关系型数据库Mysql, Oracle等有明显的区别，HBase的数据模型牺牲了关系型数据库的一些特性但是却换来了极大的可伸缩性和对表结构的灵活操作。在一定程度上，Hbase又可以看成是以行键(Row Key),列标识(co

2016-12-07 14:25:01 568

翻译 Using VoltDB About This Book

This book is a complete guide to VoltDB. It describes what VoltDB is, how it works, and — more importantly — how to use it to build high performance, data intensive applications. The book is divided i

2016-12-05 10:29:53 488

华为数据之道知识总结.xmind

2021-02-22

数据治理知识体系.xmind

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容，主要包含：元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。

2021-01-31

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

2016-01-22

《医学信息决策与支持系统》题库

《医学信息决策与支持系统》题库，最完整的医学决策练习题。

2014-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大数据技术杂谈