大数据
文章平均质量分 80
ronaldo4511
这个作者很懒,什么都没留下…
展开
-
基于虚拟机的spark集群开发环境的搭建
1. 准备安装包Win10 64位系统Vmware 10Centos 6.4jdk-7u80-linux-x64.rpmHadoop-2.7.1.tar.gzscala-2.11.6.tgzspark-2.0.1-bin-hadoop2.7.tgz 2. 安装vmware workstations,新建虚拟机master,一路enter 3. 安装jdk原创 2016-10-21 20:16:15 · 2556 阅读 · 0 评论 -
python读取csv的三种方式
import csvimport pandas as pdimport numpy as npdef get_csv_by_open(path, list_x, list_y): with open(path,'r') as csvfile: plots = csv.reader(csvfile) for row in plots: list...原创 2018-04-13 08:54:35 · 2961 阅读 · 0 评论 -
pandas 数据操作
参考 https://blog.csdn.net/xiaodongxiexie/article/details/53108959 https://www.cnblogs.com/chaosimple/p/4153083.html1. 从 csv 文件中读取数据pd.read_csv("path", encoding='utf-8'),返回的数据类型是 pd.DataFrame2. 【创建 Data...原创 2018-04-12 18:22:58 · 182 阅读 · 0 评论 -
RDD转换为DataFrame的两种方式及spark sql的简单实例
参考 http://zhao-rock.iteye.com/blog/2328161package spark_sqlimport util.HDFSHelperimport java.io.{File, PrintWriter}import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.FileSy原创 2016-11-28 16:26:57 · 11420 阅读 · 0 评论 -
在spark集群中通过hive访问mysql数据库
除hive客户端外,所有模块都安装于spark集群中的master机器1.安装spark集群(参考http://blog.csdn.net/ronaldo4511/article/details/52886672)2.安装 mysql1) 查看系统当前是否已安装mysqlrpm -qa | grep mysqk # 列出和mysql相关的包,本机的结果只有一条 mysql-li原创 2016-11-30 19:46:47 · 4081 阅读 · 1 评论 -
spark2.0版本的 DataFrame、DataSet 与 Spark sql
参考:http://www.cnblogs.com/seaspring/p/5804178.htmlhttps://my.oschina.net/cjun/blog/655263?p={{currentPage%201}}http://spark.apache.org/docs/latest/sql-programming-guide.html1. 相关概念1) R原创 2016-11-30 11:44:01 · 7186 阅读 · 0 评论 -
scala中hdfs文件的操作
对于org.apache.hadoop.fs.Path来说, path.getName只是文件名,不包括路径 path.getParent也只是父文件的文件名,同样不包括路径 path.toString才是文件的全路径名以下是hdfs文件操作的工具类package utilimport org.apache.hadoop.fs._import scala.collection.mutable.{H原创 2016-11-24 20:18:19 · 22647 阅读 · 0 评论 -
使用idea sbt运行spark程序
1.新建scala-sbt 项目2.待sbt及相关依赖下载完成后,配置spark依赖spark 2.0.0后,目录下没有lib文件夹,也找不到assembly jar包,实际上该jar已经分拆成了spark安装目录下的jars文件夹下的各jar包。导入依赖如下打开idea - file - project structure - libraries,点击“+” - java,选择jar原创 2016-11-04 16:18:54 · 6985 阅读 · 0 评论 -
基于vmware workstations 10 、centos6.4和hadoop-2.7.1的hadoop完全分布式集群的开发环境搭建
1. 准备安装包环境:win10 64位Vmware 10Centos 6.4jdk-7u80-linux-x64.rpmHadoop-2.7.1.tar.gzEclipse-java-neon-R-linux-gtk-x86_64.tar.gzHadoop-eclipse-plugin-2.7.1.jar 2. 安装vmware workstations,新建转载 2016-10-14 16:00:20 · 564 阅读 · 0 评论 -
pyplot 画图
参考 点击打开链接1. 使用 plt.plot() 画 折线图import matplotlib.pyplot as pltimport pandas as pdx = [1, 3, 7, 8, 12, 14, 17, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40] y = [3, 5, 6, 10, 13, 23, 24, 27, 30, 28,...原创 2018-04-13 10:52:53 · 6139 阅读 · 0 评论