- 博客(22)
- 资源 (17)
- 问答 (6)
- 收藏
- 关注
原创 CentOS 6.5使用yum方式安装JDK
查看已安装的JDK:yum list installed |grep java查看可安装的JDK:yum -y list java*安装JDK:yum -y install java-1.8.0-openjdk*卸载已安装的JDK:yum -y remove java-1.8.0-openjdk-javadoc.x86_64
2016-10-31 12:39:08 398
原创 Spark源码走读概述
Spark代码量 ——Spark:20000loc ——Hadoop 1.0:90000loc ——Hadoop 2.0:220000loc Spark生态系统代码量 Spark生态系统 概述 ——构建Spark源代码阅读环境 ——Spark源代码构成 ——Spark源代码阅读方法 构建源码阅读环境1.IDE ——Eclipse / IDEA ——可直接导入 2.编译源
2016-10-22 16:50:28 898
原创 Spark Shuffle剖析
Spark核心计算——shuffle 指定两个task数量。 分为两部分shuffle write 和 shuffle read Spark核心计算——shuffle write(hash-based)(逐渐被淘汰基于hash实现的shuffle) 一个executor中的两个task,多线程。 小文件有大量随机读,占用大量IO。map-task写到bucket的过程中,先写入buffer
2016-10-22 15:58:55 543
原创 Spark计算引擎原理
一、Spark内部原理 ——通过RDD,创建DAG(逻辑计划) ——为DAG生成物理查询计划 ——调用并执行Task 二、生成逻辑执行图:产生RDD 三、生成逻辑执行图:RDD之间关系 四、生成逻辑执行图:Shuffle —每个reduce task要从每个map task端读取一部分数据,网络连接数是:M*R。—shuffle是分布式计算框架的核心数据交换方式,其实现方式直接决定
2016-10-21 23:03:13 3147
原创 Spark核心概念
Spark核心概念——RDD RDD(抽象数据集的统称Spark是对RDD的其中一种实现):Resilient Distributed Datasets,弹性分布式数据集 1.分布在集群中的只读对象集合(由多个Partition构成) 2.可以存储在磁盘或内存中(多种存储级别) 3.通过并行“转换”操作构造 4.失效后自动重构RDD基本操作(operator) 1.Transformat
2016-10-21 19:58:31 720
原创 Spark企业级环境搭建
Chinahadoop-1节点安装Spark即可,在提交作业时由Yarn动态分发运行环境包括jar包、executor、driver等。不需要分布式部署Spark。 下载hadoop压缩包之后解压hadoop后,配置文件在…/etc/hadoop目录下。 下载Spark压缩包之后,解压进入Spark目录,找到conf进行配置。spark-env.sh(打通hadoop) spark-def
2016-10-21 19:05:57 770
原创 董西城问答整理:第三课
一、spark加载hadoop本地库的时候出现不能加载的情况,这是什么原因导致的呢? 我64位机器,当时hadoop启动的时候出现不能加载本地类库的这个问题是因为hadoop本身自带的本地库是32位的,编译完hadoop源码后我替换了hadoop-3.0.0本地库为64位的。 解决办法–spark加载hadoop本地库的时候出现不能加载的情况。 vim /etc/profile export
2016-10-20 15:49:37 561
原创 使用maven构建项目生成特定的目录结构
假设已经安装maven软件(系统CentOS 6.5)创建一个空的Scala Project,项目名称wordcount,包名为org.training.spark (maven)mvn archetype:generate \ -DarchetypeGroupId=org.scala-tools.archetypes \ -DarchetypeArtifactId=scala-ar
2016-10-18 19:22:22 903
原创 MLlib On Spark(机器学习算法)
简介:Spark包含一个提供常见的机器学习(ML)功能的程序库,叫做MLlib。它提供了很多种机器学习算法,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。MLlib还提供了一些更底层的机器学习原语,包括一个通用的梯度下降优化算法。所有这些方法都被设计为可以在集群上轻松伸缩的架构。 MLlib的设计理念:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。Ml
2016-10-17 23:55:26 1713
原创 Spark编程实例
【实例一】 分布式估算pi 假设正方形边长为x,则正方形面积为:x*x,圆的面积为:pi*(x/2)*(x/2),两者之比为:4/pi 随机产生位于正方形内的点x个,假设位于园中的有y个,则:pi=4*y/x 当x->无群大时,pi逼近真实值 object SparkPi{ //不要用继承,会有各种麻烦 def main(args:Array[String]){ //常规spa
2016-10-17 17:55:58 1678 1
原创 构建集成开发环境Apache Spark
推荐使用Intellij IDEA(eclipse也可以) 基本流程 –安装JDK1.7 –下载Inleilij IDEA,打开后,安装scala插件 –在Intellij IDEA中创建scala工程,导入spark-hadoop包 –编写spark程序 参考文章:http://dongxicheng.org/framework-on-yarn/apache-spark-intell
2016-10-17 16:06:19 528
原创 Spark程序设计——accumulator、广播变量、cache
(一)accumulator(累加器、计数器) 类似于MapReduce中的counter,将数据从一个节点发送到其他各个节点上去。 通常用于监控,调试,记录符合某类特征的数据数目等。 –分布式counter Accumulator使用import SparkContext._val total_counter=sc.accumulator(OL,"total_counter")//第一个
2016-10-17 15:38:10 937
原创 Spark程序设计——应用(wordcount、join)
wordcountval lines=sc.textFile("hamlet.txt")//映射成RDDval counts=lines.flatMap(lin=>line.split(" "))//按空格进行分词 .map(word=>(word,1))//Key/value映射 .reduceByKey(_+_)//归约,把key相同的value归约重点在于理解并行化 join
2016-10-16 23:35:12 421
原创 Spark程序设计——基本流程
一、基本流程 1.创建SparkContext对象 ——封装了spark执行环境信息 2.创建RDD ——可从Scala集合或Hadoop数据集上创建 3.在RDD之上进行转换和action ——Spark提供了多种转换和action函数 4.返回结果 ——保存到HDFS中,或直接打印出来二、代码示例(一)创建SparkContext(spark程序中只能有一个) 1.创建conf
2016-10-16 23:04:29 1150
原创 Spark程序设计——Scala
1.Java JVM的高层次语言 面向对象+函数式编程 2.静态类型 性能与Java差不多 通常不需要显式写出类型(类型推断机制) 3.与Java结合完好 可直接使用任意Java类,可继承自Java类,也可从Java代码中调用Scala代码。 定义变量:var x:Int=7var x=7 //类型推断val y="hi" //只读函数:def square(x:Int):Int=
2016-10-16 20:01:12 358
原创 董西城问答整理:第二课
一、spark-shell在namenode的stand-by节点执行会报sparkContext出错,然后到active的namenode的机器起spark-shell就可以了。为什么这样 你程序里有写hdfs地址了吗?需要写为逻辑名 二、hadoop集群中有5个节点,其中1个主节点,1个备用节点,3个数据节点(数据节点上有日志节点),分配内存的时候,主备节点各分配了64G,数据
2016-10-16 12:28:50 560
原创 Hadoop-3.0.0测试(单机)环境搭建
下载hadoop-3.0.0解压到本地(基于jdk-1.8开发,jdk-1.7已停止更新) http://www-us.apache.org/dist/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz修改/etc/hosts 增加本机ip和用户名的映射修改配置文件1.hadoop-env.shexport JAVA_H
2016-10-14 16:27:43 3631
原创 董西城问答整理:第一课
一、Spark在任何情况下均比MapReduce高效吗? 请举例。 不是任何情况下都很高效,数据量非常大的时候MapReduce要比Spark快。 比如:WordCount计算的数据量是1PB的时候,MapReduce会比Spark快。 快的原因是目前Spark的Shuffle实现比较差,而Spark Shuffle这个实现正在改进,且会换成同MapReduce Shuffle一样的实现。二
2016-10-13 20:26:13 1155 1
原创 大数据相关书籍(包含Java, Scala, R, Linux, Spark, Hadoop, Hive, Hbase, Sqoop, Flume, Strom)
下面书单,有一部分英文版原版,当然价格也相对高一点,英文版部分需要在在亚马逊搜索 ,中文版大部分在京东有售!《Hadoop核心技术》 翟周伟 著《Storm分布式实时计算模式 》 [美] P.Taylor Goetz,[美] Brian O’Neill 著;董昭 译 《Hive编程指南》[Programming Hive] [美] Edward Capriolo,Dean Wampler,J
2016-10-13 17:15:49 1865 1
转载 佛祖保佑注释代码(内含神兽与美女)
效果图: 源代码:/** * ┏┓ ┏┓+ + * ┏┛┻━━━━━━━┛┻┓ + + * ┃ ┃ * ┃ ━ ┃ ++ + + + * █████━█████ ┃+ * ┃ ┃ + * ┃ ┻ ┃ * ┃
2016-10-12 20:11:49 31582
原创 String.format()方法使用
package com.codewars;import java.util.Date;/** * Created by MaYanChao on 2016/10/12.--->>>Buddha Bless, No Bug ! * // * // _ooOoo_ * // o8888888
2016-10-12 20:07:45 722
原创 Struts2中注册登录模块配置文件路径更改
<!--原因是http://www.opensymphony.com/xwork/xwork-validator-1.0.2.dtd已经不是dtd约束文件了,打开网址,发现opensymphony的网址已经迁移走了,因为xwork的东西已经并入struts2中,成为apache的一部分. 所有的dtd已经移交到http://struts.apache.org/dtds/ 这个地方. 以后stru
2016-10-04 14:06:26 289
HC_DOCS-Final_Proposed_Stipulated_Judgment_and_Injunction.docx.pdf
2021-05-30
针对图谱超级节点的优化方案v1.3.pptx
2020-05-16
Neo4j-ai-graph-technology-white-paper-EN-A4-CN_135.pdf
2020-05-16
ongdb-3.5.16集群配置.zip
2020-04-06
附件二+Neptune_vs_Neo4j-2020.pptx
2020-04-03
附件三+CASE+NO.+5-19-CV-06226-EJD+OPPOSITION+AND+RESPONSE+TO+MOTION+TO+STRIKE.pdf
2020-04-03
windows文本转换为linux文本
2017-12-05
linux 安装oracle rpm包
2016-11-03
BCP文件的解析可以用mapreduce程序实现分布式解析吗?提供一下思路?
2017-08-13
tensorflow实现多层感知机,出现内存泄漏!
2017-03-17
这段代码如何修改正确呢?可以返回正确的值?
2016-10-12
我在做jsp+dao+hibernate实现登录功能时出现一个报错
2016-10-06
JavaWeb项目,连接mysql数据库之后报出这个错误
2016-09-29
二叉树的创建和遍历,编译成功了不知道在运行窗口输入什么。大神帮我看看
2015-01-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人