大数据
文章平均质量分 96
Se_cure
这个作者很懒,什么都没留下…
展开
-
linux 配置静态ip
1.当我们在linux里面输入ifconfig时候会出现下图 这个里面包含了ip地址 网卡等信息 但我们要配置的时静态ip ,就是不随着时间改变而改变的IP地址 我们可以在我们的虚拟机里面的编辑里面的虚拟网络编辑器里面找到网关地址192.168.50.0 另外我们也可以在命令窗口里面输入route 查询到2.整理静态ip 192.168.10...原创 2018-03-24 16:11:23 · 5673 阅读 · 0 评论 -
Hadoop伪分布式搭建
准备工作: 这一点很重要就相当于lol 前期不发育,后期再秀也没用,所以必须要好好的配置 设置静态ip 与主机名 附链接: https://blog.csdn.net/dxyna/article/details/79678277 安装hadoop 并进行环境配置: 附环境配置链接: https://blog.csdn.net/dxyna/article/detai...原创 2018-03-24 22:58:45 · 469 阅读 · 0 评论 -
spark的介绍和pyspark的使用
从这个名字pyspark就可以看出来,它是由python和spark组合使用的.相信你此时已经电脑上已经装载了hadoop,spark,python3.那么我们现在开始对pyspark进行了解一番(当然如果你不想了解直接往下翻找pyspark的使用):1. 背景: 产生与加州大学伯克利分校AMP实验室,2013年6月称为Apache成为孵化项目,使用Scala语言进行实现的,而Scala建立...原创 2018-03-31 23:42:34 · 97924 阅读 · 7 评论 -
pyspark里面RDD的操作
RDD类型: 1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据 2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据因为RDD的俩种不同类型,所以我们使用文件有不同方式 1. 并行化集合是通过调用SparkContext的paral...原创 2018-04-10 17:54:34 · 33912 阅读 · 4 评论 -
pysaprk的使用
首先你要保证你已经安装成功了python和spark附连接: pyspark的安装与配置 hadoop的安装要想使用pyspark 需要先开启hadoop:start-dfs.sh接着在命令框输入:jupyter-notebook -- ip 192.168.50.88 Jupyter Notebook(此前被称为 IPython noteboo...原创 2018-04-22 18:17:28 · 767 阅读 · 0 评论 -
spark sql 的介绍
Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hiv...转载 2018-04-22 19:01:02 · 319 阅读 · 0 评论 -
linux 里安装mysql与hive
mysql安装:1. 首先准备一个文件MySQL yum 仓库:附链接:点击打开链接下载好之后将它上传到linux里面2. 接着输入执行命令:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 3. 仓库安装好之后进行安下载安装mysql:yum install mysql-community-server -y4. 开启mysql:syste...原创 2018-04-22 22:57:21 · 2848 阅读 · 1 评论