数据库相关
千寻千梦
这个作者很懒,什么都没留下…
展开
-
Python Pandas、Spark数据清洗
数据清洗 去重 去空值 数据聚合原创 2016-09-06 10:30:58 · 5294 阅读 · 0 评论 -
Spark 2.0 -SQL 学习笔记
Spark SQL是Spark结构化数据处理模块,不同于基本的Spark RDD API,Spark SQL提供了更多数据结构和计算功能,并使用了这些丰富的信息进行了额外的优化。可以通过SQL和DataSet API和Spark SQL交互。与不同API/编程语言无关,使用了相同的执行引擎。翻译 2016-08-24 08:29:05 · 2423 阅读 · 0 评论 -
Hadoop-Pig 学习笔记
本文是一个学习笔记,并不包含完整的Pig(Pig Latin)内容,仅仅列出了一些本人在学习过程中觉得重要的内容,更详细的内容参考《Hadoop权威指南》、《实战Hadoop》。Pig概述Pig是一种探索大规模数据集的脚本语言。 Pig相当于一个Hadoop的客户端。 Pig提供了丰富的数据结构,和一套强大的数据变换操作。MapReduce的一个缺点是开发周期太长,Pig Latin代码能轻松处原创 2016-08-22 15:40:00 · 3069 阅读 · 0 评论 -
Hive 学习笔记
将计算(查询)结果保存到一个新表中//原始数据表hive> describe widgets2;id int price double amount int //目标表创建hive> create table sales(id int,原创 2016-08-20 22:52:46 · 1080 阅读 · 0 评论 -
Sqoop学习笔记
Sqoop学习笔记1)列出数据库 sqoop list-databases –connect jdbc:mysql://localhost/ -username root -P 2)将数据库导入HDFS : sqoop import –connect jdbc:mysql://localhost/mytest_sqoop –table widgets -m 2 -username root -P原创 2016-08-20 20:26:45 · 794 阅读 · 0 评论 -
MySQL学习笔记
MySQL完整教程:http://www.runoob.com/mysql/mysql-tutorial.htmlMySQL数据类型: 从文件中导入表更完整的信息请参考http://www.jb51.net/article/58093.htmLOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name.txt' [REPLA原创 2016-09-08 09:35:48 · 760 阅读 · 0 评论 -
HBase学习笔记
HBase是一个在HDFS上开发的面向列的分布式数据库。 实时随机读/写大规模数据集。实现 一个Master节点协调管理一个或多个Regionserver从属机。 HBase主控机(Master)负责启动(bootstrap)和全新的安装把区域分配给注册的Regionserver,恢复Regionserver的故障。HBase依赖于ZooKeeper。物理模型HBase是按照列存储的稀疏行/列转载 2016-08-18 11:17:11 · 1052 阅读 · 1 评论 -
Spark-Hive
启动:spark-sql log4j.properties : log4j.rootCategory=WARN,console 这样就不会有大量INFO输出了#hive-site.xml:metastore.warehouse.dirproperty> <name>hive.metastore.warehouse.dir</name> <value>/home/hadoop/hdfs原创 2016-09-21 22:18:43 · 2193 阅读 · 0 评论