大数据
glory8901
这个作者很懒,什么都没留下…
展开
-
大数据学习第四天
4. zookeeper 和 kafka 的安装4.1 安装ZooKeeper包(1)对zookeeper-3.4.5.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5.tar.gz(2)对zookeeper目录进行重命名:mv zookeeper-3.4.5 zk(3)配置zookeeper相关的环境变量vim ~/.bashrcexport Z...原创 2018-12-19 22:00:12 · 101 阅读 · 0 评论 -
大数据实战-pyspark使用
centos 7安装python3https://www.python.org/ftp/python选择相应的版本,然后直接下载,或者wget解压tar -xvf Python-3.6.3.tgz源码编译安装python3yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel ...转载 2019-06-08 15:45:53 · 535 阅读 · 0 评论 -
linux 安装配置问题总结
1.ping:unknown host问题怎么解决?Centos重新启动网络配置文件,/etc/resolv.conf被覆盖或清空问题解决[root@spark2 sbin]# ping www.baidu.comping: unknown host www.baidu.com在网上查了下,原来是DNS服务器错误,于是修改了/etc/resolv.conf文件,添加了两个nam...转载 2019-06-08 14:52:28 · 198 阅读 · 0 评论 -
sqlite导入hive
1. 使用sqoop,比较适合数据量比较大的数据库系统,比如mysql、postgresql、oracle等$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS还可以使用--options-file来传入...转载 2019-06-12 21:53:22 · 733 阅读 · 0 评论 -
大数据学习第七天
今天开始学习spark核心编程之高级特性:(1)基于排序机制的wordcount程序(2)二次排序(其实就是根据多个字段排序,sort by a,b,c)(3)topN (1)对于第一个问题,其实就是如何把('a',1),('b',3)类似的pair结构的数据排序,由于只有sortByKey没有sortByValue,因此想办法调换一下key/value的位置就可以了。(2...原创 2019-01-03 17:12:18 · 99 阅读 · 0 评论 -
大数据学习第六天
今天起继续学习spark核心编程:一、RDD的持久化1. RDD持久化原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面...转载 2019-01-03 17:01:48 · 135 阅读 · 0 评论 -
大数据学习第五天
1. 总结spark学习过的知识点(1)Spark的基本工作原理(2)Spark核心概念(3)Spark核心编程:转换与行动因子注意:spark的版本是1.3,接下来会逐渐更新到2.4. 2. 详细介绍(1)Spark的基本工作原理1、分布式2、主要基于内存(少数情况基于磁盘)3、迭代式计算 (2)Spark核心概念1、RDD是Spark提...转载 2019-01-03 16:47:23 · 398 阅读 · 0 评论 -
大数据学习第三天
3. hive的安装Hive本地模式配置,连接mysql数据库hive主要是基于hdfs的一个数据仓库,可以实现离线的数据分析任务,原先的hive版本主要是mr为计算引擎,后来随着spark\tez等更高性能的计算引擎的出现,mr开始逐渐被替代。先后出现了hive on tez 和 hive on spark项目,本次先安装hive on hadoop,后面进行整合。 3.1 hi...原创 2018-12-18 20:51:26 · 332 阅读 · 0 评论 -
大数据学习第二天
2. 部署spark 和 hadoopHadoop2.9.2+Spark2.4.0完全分布式集群搭建过程主要参考了这一篇https://blog.csdn.net/guoyu931206/article/details/84795385?tdsourcetag=s_pcqq_aiomsg1.选取三台服务器(CentOS系统64位)192.168.3.21 Master192....原创 2018-12-15 13:40:08 · 340 阅读 · 0 评论 -
大数据学习第一天
1.spark入门阅读《spark快速大数据分析》这本书,总共11章 ,每天阅读一章左右,大概花两周时间就可以看完了。在windows和linux上分别部署开发环境和测试、生产环境。1.1 开发环境(1)idea开发在windows上用idea 部署scala应用程序的时候,总是报错。发现是插件的问题,新下载了一个idea ic2018.3,终于可以使用。在setting...原创 2018-12-11 13:12:31 · 136 阅读 · 0 评论