![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
Takoony
天下大事,必作于细,天下难事,必作于易
展开
-
什么是负载均衡呢
它是用来干吗的呢?看一个生动的解释:火车站买票,火车站只有一个进站口。刚开始的时候,火车站只有一个进站口,只有一个窗口。大家买票的是会只能排一排,等着前面买了,下个人才能买。后来火车站新增了两个买票的窗口。进站口还是只有一个,但是买票窗口有了三个。购票者排在三个队列里排队,有的窗口前排队的人多,有的窗口前排队的人比较少。会出现有的窗口比较忙,有的窗口却闲着。再往后,火车站安排了一个专职的人,他的工作时把从进站口进来买票的人,等量分到三个购票窗口排队的队列里,让每个窗口排队的人数尽可能一致原创 2020-09-23 10:42:50 · 204 阅读 · 0 评论 -
分布式是什么,集群又是什么呢
单机、集群、分布式的形象理解:集群等同于备份,且之间无通信,完全独立,作相同类型的任务。分布式是协同合作,通信且不独立,缺一不可,协同合作,完成一个任务。集群和分布式可以融合在一起吗?可以,请查下图,集群加分布式:...原创 2020-09-23 10:31:25 · 351 阅读 · 0 评论 -
linux上安装spark_hadoop_java_scala
cp /opt/hadoop/hadoop-2.8.0/etc/hadoop/mapred-site.xml.template /opt/hadoop/hadoop-2.8.0/etc/hadoop/mapred-site.xml 修改这个新建的mapred-site...转载 2019-01-21 18:53:08 · 276 阅读 · 0 评论 -
scala注意事项
代码如下:文件名与对象名不同scalac编译后: scala需要执行对象名;如果只使用scala 文件名报错原创 2019-01-26 16:47:44 · 183 阅读 · 0 评论 -
scala与python混合调用实验
如图所示:本质原理为scala通过cmd命令调用python包原创 2019-01-26 16:50:58 · 1403 阅读 · 0 评论 -
成功导入并运行breeze jar库
通过各种方法导入自己下载的jar包,却发现命令import breeze.linalg._一直是失败的;却发现下载的包是错误的;重新下载就ok了;如图所示: 不单单是添加breeze包;然后察看项目菜单的 ...原创 2019-01-16 14:50:40 · 1668 阅读 · 3 评论 -
成功在两台电脑上安装了spark集群,mark下
一、首先查找linux系统下的集群master的ip地址;如图所示: 二、然后在windows电脑上访问该ip地址;端口:50070 这个只是启动了Hadoop集群; ...原创 2019-01-22 10:23:30 · 1566 阅读 · 0 评论 -
安装spark集群,并成功运行
基于上一篇的hadoop成功运行后,进一步启动spark集群;上图中的内容,slave主机中也需要相应的设置 上图就是成功运行的结果;原创 2019-01-22 11:45:35 · 358 阅读 · 0 评论 -
pd.read_csv指定数据类型是非常重要的
指定数据类型的情况下: 不指定数据类型的情况下: 内存爆满,出现异常 分析原因: 由于使用默认的参数设置,数据类型会选64位的,导致内存不够用;数据虽然只有2G多。读取进内存后,数据类型选择不当,17个G都不够用; ...原创 2019-02-01 10:37:51 · 33302 阅读 · 2 评论 -
spark集群测试小案例
一、local模式:测试自带计算的圆周率案例 之所以会报错,是因为从网上copy过来的文件名不对;所以才会报错,以及因此而导致的错误;正确的如下: 二、独立的Spark集群模式;使用7077端口(使用ip地址,执行失效,使用主机名执行成功);这种结果可以在8088端口看到信息 ...原创 2019-01-22 14:01:48 · 1067 阅读 · 0 评论 -
Shorten command line 解决方案
修改项目下 .idea\workspace.xml,找到标签 <component name="PropertiesComponent"> , 在标签里加一行 <property name="dynamic.classpath" value="true" />原创 2019-01-28 10:29:23 · 8979 阅读 · 2 评论 -
scala -cp file.jar filename的案例
一、新建scala类,如图所示: 二、用scalac编译文件到指定的classes目录中,如图所示:包括 HelloWorld与BeautifluGirl两个大类最终class目录内容如下 : 然后将classs目录压缩成一个jar文件 然后再将文件移到根目录下(验证运行jar文件中的类,只需要jar文件就可以了) -cp后的点不知道是啥意...原创 2019-01-23 15:12:36 · 602 阅读 · 2 评论 -
成功将用intelli idea 建立的项目打包成jar文件,并在Linux上成功运行
将jar包直接复制到linux系统上,运行java命令或者scala命令 第二个包:建立两个 object文件,如图所示: 主类仍然选择:然后再打包copy到linux中,运行两个类都能成功,如图所示: ...原创 2019-01-23 16:50:07 · 3956 阅读 · 1 评论 -
使用intellij idea打开以前用maven的包
第一步打开原有的文件夹;显示如下: 第二步、点击import changes,这样就正常显示了,OK原创 2019-02-21 15:09:10 · 313 阅读 · 0 评论 -
孤立森林异常检测之入门
iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(详见新版教材“Outlier Analysis”第5和第6章 PDF)。其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。本文将通俗解释实现方法和日常运用,即无需深厚的数学功...转载 2019-03-04 11:45:20 · 2101 阅读 · 0 评论 -
spark集群运行模式理解
第一种模式:本地集群测试单机模式:不启动任何集群,即Local模式 第二种模式: 第三种模式: yarn-Client模式 访问8088端口 这篇文章解决了一是否调用 集群,并不是程序内部要求的;二是明白了运行spark集群的三种大模式的区别 转载自: https://blog.csdn.net/pucao_c...转载 2019-01-26 11:53:42 · 833 阅读 · 0 评论 -
成功启动spark集群程序,使用多台电脑进行计算
单独启动spark集群(不启动hadoop集群)start-spartk-all.shspark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://master001:7077 /usr/spark/spark-2.4.0-bin-hadoop2.7/examples/jars/spark-examp...原创 2019-01-26 11:29:47 · 918 阅读 · 0 评论 -
alive workers 数量为0的解决方案
因为hostname显示的主机名与/etc/hosts中的主机名不相同,所以都会导致无法连接slave,将集群的主机均实现hostname与/etc/hosts名称一样,就解决了问题;如下所示: ...原创 2019-01-26 11:24:05 · 2329 阅读 · 1 评论 -
windows安装spark工具记录
首先安装java 然后安装scala 继续安装intelli idea与sbt 继续安装spark(直接是编译好的),需要手动添加环境变量 继续安装hadoop(直接是编译好的),需要手动添加环境变量最后,运行一个样例wordcount;注意事项,需要手动添加库(jar文件);使用机器学习库需要导入breeze库使用spark的很多库, 需要...原创 2019-01-17 17:48:15 · 123 阅读 · 0 评论 -
No such file or class on classpath: WordCount
用scala -cp xxxx.jar WordCountNo such file or class on classpath: WordCount 用java -cp xxxx.jar WordCount Could not find or load main class 同样的一个项目:第一次实验:先将主体代码全部删除,只保留一个println函数打包实验...原创 2019-01-23 19:41:19 · 1419 阅读 · 0 评论 -
intelli idea新建无scala class选项解决方案
删除scala-sdk,再重新添加原创 2019-01-24 10:33:44 · 1962 阅读 · 0 评论 -
java -cp ***.jar WordCount 无法找到类名解决方案记录
以前我选 的是第一个选项,目录为默认目录运行成功的版本为第二个选项, 目录为项目的根目录 jar文件夹上存在很多的包,如图所示: 运行结果: ...原创 2019-01-24 14:13:59 · 752 阅读 · 0 评论 -
hdfs的默认路径
hdfs命令如下:从上面的实验当中就可以发现hdfs的默认路径为/user/root hdfs 命令已经取代hadoop;原创 2019-01-24 16:23:09 · 12248 阅读 · 0 评论 -
查看hdfs目录的方法
如图所示:原创 2019-01-24 17:00:52 · 13944 阅读 · 0 评论 -
启动spark集群的方法
原创 2019-01-24 17:01:15 · 2097 阅读 · 0 评论 -
hdf5与hdfs的区别
hdf5:Hierarchical Data Format hdfs:Hadoop Distributed File System初次看hadoop,还以为hdfs就是hdf5;但事实却是截然不同的概念; hdfs还可以用作shell命令;等价于hadoop命令 宣告正式开始学习大数据 ...原创 2019-01-14 19:46:34 · 4433 阅读 · 0 评论 -
namenode与datanode
master slave namenode在master上,datanode在slave上原创 2019-01-25 10:08:16 · 188 阅读 · 0 评论 -
自己启动spark集群的实验记录
第一步、将master和slave电脑重启第二、查看jps命令,结果如下:masterslave第三、启动hadoop集群,准确的使用目录./等来保证执行的命令为hadoop目录 下的start-all.sh主机:slave 第四、hadoop namenode -formatmasterslave 第五步、启动spark...原创 2019-01-25 11:01:01 · 207 阅读 · 0 评论 -
scala运行包含package文件注意细节
测试代码如下: 结论:packages文件需要用scalac文件编译;而导入包的文件也需要用scalac编译,然后再调用scala 文件名(不含后缀)原创 2019-01-15 11:22:15 · 1019 阅读 · 0 评论 -
成功解决slave无datanode问题
一、主机中的hadoop配置要与slave完全相同(主要原因)二、删除了下面目录中的所有文件(不知道有没有影响)stop-all.sh stop-spark-all.sh hadoop namenode -formatstart-all.shdatanode就成功出现了上传个文件试试,看看效果;圆满成功! ...原创 2019-01-25 16:48:38 · 6387 阅读 · 0 评论 -
spark端口实验总结:
Spark的端口总结Master节点的web端口是8080,work节点的web端口是8081 spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口(比如:Tomcat)时,启动master时也不会报错,spark自己会改用其它端口,自动端口号加1,也可以自行设置,修改方法:1、cd $SPARK_HOME/sbin2、vi...原创 2019-01-25 19:28:27 · 738 阅读 · 0 评论 -
linux安装hadoop记录
安装hadoop需要使用java包;启动hadoop会调用$JAVA_HOME变量;如果使用java rpm包安装,环境变量等不需要自己设置,也不用 设置java_home值;尽管自己设置了java_home变量;但仍然无法启动hadoop;最后自己下载已经编译好的包;包括hadoop与java 包;hadoop选择binary(已经编译好);source代表源文件,需要自己编译;ja...原创 2019-01-21 15:00:34 · 105 阅读 · 0 评论 -
修改主机名hosts
通过修改/etc/hosts文件hostname仍然显示原系统名使用spark访问仍然要使用原系统名,才能完成映射; 否则无法连接,使用master001主机连接会出现如下错误:成功运行的方法:主机修改成hostname 另外一种方法修改主机名:hostname master001hostname:就显示为master001 再来看看效...原创 2019-01-26 11:21:11 · 939 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$
使用intelli idea +scala+spark,运行程序代码如下:package cn.limbo.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDD/** * 使用Scala开发本地测试的Spark Word...原创 2019-01-17 16:39:57 · 9156 阅读 · 0 评论