Lyon_Sun-CSDN博客

转载 Spark 中 map 与 flatMap 的区别

通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一：将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本：步骤二：在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt步骤三：查看map函数的返回值得到map函数

2017-09-20 22:48:03 804

转载 Oracle 索引详解

二．索引分类Oracle提供了大量索引选项。知道在给定条件下使用哪个选项对于一个应用程序的性能来说非常重要。一个错误的选择可能会引发死锁，并导致数据库性能急剧下降或进程终止。而如果做出正确的选择，则可以合理使用资源，使那些已经运行了几个小时甚至几天的进程在几分钟得以完成，这样会使您立刻成为一位英雄。下面就将简单的讨论每个索引选项。下面讨论的索引类型：B树索引(默认类型)位图索

2017-09-16 11:10:02 329

转载复合索引的先决使用条件

背景：今天，接到一个项目的项目经理电话，告之说生产环境有几个查询超级慢，就是查询单张表的数据，查询条件也很简单，但是加了索引以后并没有走索引，依然还是走的全表扫描。听到该问题描述，我开始浮想联翩，统计信息太旧？存在隐式转换？索引树倾斜度太高，导致oracle认为走索引的成本更高？带着各种可能的原因猜想，火速赶到了现场，发现原来都是我想多了。不走索引单纯是建立的索引不合理，查询条件是多个

2017-09-16 10:05:30 665

转载 linux下的source命令

当我修改了/etc/profile文件，我想让它立刻生效，而不用重新登录；这时就想到用source命令，如:source /etc/profile对source进行了学习，并且用它与sh 执行脚本进行了对比，现在总结一下。source命令：source命令也称为“点命令”，也就是一个点符号（.）,是bash的内部命令。功能：使Shell读入指定的Shell程序文件并依次

2017-09-12 21:50:43 215

转载 hive启动异常：Cannot create directory /tmp/hive/。。。Name node is in safe mode.

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive/hadoop/b06。。。. Name node is in safe mode.解

2017-09-12 20:09:43 1819

转载 hadoop集群配置无密码登陆启动关闭namenode输入密码的解决方法

最近做hadoop学习，按网上的资料照本宣科做的，发现死活搞不懂为啥在启动和关闭namenode的时候都要输入密码。上网查询半天都没摸到头脑，后来仔细研究了下ssh后才发现，原来是一直没在namenode主机上加入ssh本地免验证authorized_keys文件，ssh 127.0.0.1 还是需要验证密码滴。。。。。很多网上的资料都没专门指出这一步。特此留贴，做个纪念。[zzj

2017-09-12 20:07:08 1632

转载 hive中的增删改如何实现

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。由于 Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive 中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用

2017-09-11 21:46:36 610

转载 Hive内表和外表的区别

本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个：不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields terminated by ‘|’;(show tables发现没有innerTa

2017-09-10 17:51:21 360

转载 HBase入门基础教程 HBase之单机模式与伪分布式模式安装

HBase入门基础教程HBase之单机模式与伪分布式模式安装[日期：2015-03-08]来源：Linux社区作者：andie_guo[字体：大中小]在本篇文章中，我们将介绍Hbase的单机模式安装与伪分布式的安装方式，以及通过浏览器查看Hbase的用户界面。搭建HBase伪分布式环境的前提是我们已经搭建好了Hado

2017-09-10 17:00:34 327

转载列式数据库分析

要了解列式数据库的本质，我觉得先从逻辑视角和物理视角来区分一些概念比较好，比如DBMS从逻辑视角来看，可以分为1）Relative Database Management System2）Non-Relative Database Management System而从物理（存储的）视角来看，则可以分为：1）Row Based Storage DBMS2）Column

2017-09-10 16:52:31 673

转载 Hive 学习笔记

向Hive的表里insert 批量insert数据通过本地文件直接导入load data local inpath '/root/tmp_data.txt' overwrite into table t2;先把本地文件上传到hdfs，再导入hivehdfs dfs -put tmp_data.txt /user/rootload data inpath '/

2017-09-03 17:05:49 223

m0_38065603的博客