大数据
samll_tree
这个作者很懒,什么都没留下…
展开
-
Hive 库表操作: 创建,查看,修改,删除
Hive 库表操作: 创建,查看,修改,删除参考链接:Hive TutorialHive LanguageManual库操作创建库 create database if not exist test;创建库带注释 create database test comment "learning hive" location hdfs_path查看数据库 show databases;查看满足条件的数据库 show databases like 'price*'显示数据库原创 2020-12-10 17:56:49 · 333 阅读 · 1 评论 -
Git 使用参考资料
设置本机邮箱与名字git config --global user.email "you@example.com"git config --global user.email "you@example.com"常用命令git clonegit add 命令可将该文件添加到缓存git status 查看当前状态git diff 命令显示已写入缓存与已修改但尚未写入缓存的改动的区别git commit 将缓存区内容添加到仓库中git reset HEAD 命令用于取消已缓存的内容git原创 2020-07-22 14:29:31 · 263 阅读 · 0 评论 -
SparkSQL 内置函数: 聚合函数,集合函数,日期操作,数学,字符串操作
SparkSQL自带了一组功能丰富的内置函数,这些函数既可以用于DataFrame API, 也可以用于SQL接口。内置函数可以分为几类: 聚合操作, 集合操作, 日期/时间, 数学, 字符串,窗口操作,其他。from pyspark.sql import SparkSessionimport pyspark.sql.functions as Fspark = SparkSession ...原创 2019-12-19 09:35:29 · 1008 阅读 · 0 评论 -
pyspark.sql DataFrame创建, 常用操作以及输出到文件
Spark SQL 简介及参考链接Spark 是一个基于内存的用于处理大数据的集群计算框架。它提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的CPU,内存,存储资源来处理大数据。Spark API提供了Scala, Java, Python和R的编程接口,可以使用这些语言来开发Spark应用。为了用Spark支持Python,Apache Spark社区发布了一个工具PySp...原创 2019-11-29 20:14:23 · 3316 阅读 · 0 评论 -
win 10 安装单点Spark+Hadoop+Python环境
window 10 下配置spark 2.0调试环境1.下载文件:spark2.0.0 http://spark.apache.org/downloads.htmlscala2.10.4 http://www.scala-lang.org/download/2.10.4.htmljdk 1.8.0_101 http://原创 2019-10-14 16:17:33 · 487 阅读 · 0 评论