自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

马超的博客

创意化应用科学定律,系统化解决现实问题!

  • 博客(22)
  • 资源 (17)
  • 问答 (6)
  • 收藏
  • 关注

原创 CentOS 6.5使用yum方式安装JDK

查看已安装的JDK:yum list installed |grep java查看可安装的JDK:yum -y list java*安装JDK:yum -y install java-1.8.0-openjdk*卸载已安装的JDK:yum -y remove java-1.8.0-openjdk-javadoc.x86_64

2016-10-31 12:39:08 398

原创 Spark源码走读概述

Spark代码量 ——Spark:20000loc ——Hadoop 1.0:90000loc ——Hadoop 2.0:220000loc Spark生态系统代码量 Spark生态系统 概述 ——构建Spark源代码阅读环境 ——Spark源代码构成 ——Spark源代码阅读方法 构建源码阅读环境1.IDE ——Eclipse / IDEA ——可直接导入 2.编译源

2016-10-22 16:50:28 898

原创 Spark Shuffle剖析

Spark核心计算——shuffle 指定两个task数量。 分为两部分shuffle write 和 shuffle read Spark核心计算——shuffle write(hash-based)(逐渐被淘汰基于hash实现的shuffle) 一个executor中的两个task,多线程。 小文件有大量随机读,占用大量IO。map-task写到bucket的过程中,先写入buffer

2016-10-22 15:58:55 543

原创 Spark计算引擎原理

一、Spark内部原理 ——通过RDD,创建DAG(逻辑计划) ——为DAG生成物理查询计划 ——调用并执行Task 二、生成逻辑执行图:产生RDD 三、生成逻辑执行图:RDD之间关系 四、生成逻辑执行图:Shuffle —每个reduce task要从每个map task端读取一部分数据,网络连接数是:M*R。—shuffle是分布式计算框架的核心数据交换方式,其实现方式直接决定

2016-10-21 23:03:13 3147

原创 Spark核心概念

Spark核心概念——RDD RDD(抽象数据集的统称Spark是对RDD的其中一种实现):Resilient Distributed Datasets,弹性分布式数据集 1.分布在集群中的只读对象集合(由多个Partition构成) 2.可以存储在磁盘或内存中(多种存储级别) 3.通过并行“转换”操作构造 4.失效后自动重构RDD基本操作(operator) 1.Transformat

2016-10-21 19:58:31 720

原创 Spark企业级环境搭建

Chinahadoop-1节点安装Spark即可,在提交作业时由Yarn动态分发运行环境包括jar包、executor、driver等。不需要分布式部署Spark。 下载hadoop压缩包之后解压hadoop后,配置文件在…/etc/hadoop目录下。 下载Spark压缩包之后,解压进入Spark目录,找到conf进行配置。spark-env.sh(打通hadoop) spark-def

2016-10-21 19:05:57 770

原创 董西城问答整理:第三课

一、spark加载hadoop本地库的时候出现不能加载的情况,这是什么原因导致的呢? 我64位机器,当时hadoop启动的时候出现不能加载本地类库的这个问题是因为hadoop本身自带的本地库是32位的,编译完hadoop源码后我替换了hadoop-3.0.0本地库为64位的。 解决办法–spark加载hadoop本地库的时候出现不能加载的情况。 vim /etc/profile export

2016-10-20 15:49:37 561

原创 使用maven构建项目生成特定的目录结构

假设已经安装maven软件(系统CentOS 6.5)创建一个空的Scala Project,项目名称wordcount,包名为org.training.spark (maven)mvn archetype:generate \ -DarchetypeGroupId=org.scala-tools.archetypes \ -DarchetypeArtifactId=scala-ar

2016-10-18 19:22:22 903

原创 MLlib On Spark(机器学习算法)

简介:Spark包含一个提供常见的机器学习(ML)功能的程序库,叫做MLlib。它提供了很多种机器学习算法,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。MLlib还提供了一些更底层的机器学习原语,包括一个通用的梯度下降优化算法。所有这些方法都被设计为可以在集群上轻松伸缩的架构。 MLlib的设计理念:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。Ml

2016-10-17 23:55:26 1713

原创 Spark编程实例

【实例一】 分布式估算pi 假设正方形边长为x,则正方形面积为:x*x,圆的面积为:pi*(x/2)*(x/2),两者之比为:4/pi 随机产生位于正方形内的点x个,假设位于园中的有y个,则:pi=4*y/x 当x->无群大时,pi逼近真实值 object SparkPi{ //不要用继承,会有各种麻烦 def main(args:Array[String]){ //常规spa

2016-10-17 17:55:58 1678 1

原创 构建集成开发环境Apache Spark

推荐使用Intellij IDEA(eclipse也可以) 基本流程 –安装JDK1.7 –下载Inleilij IDEA,打开后,安装scala插件 –在Intellij IDEA中创建scala工程,导入spark-hadoop包 –编写spark程序 参考文章:http://dongxicheng.org/framework-on-yarn/apache-spark-intell

2016-10-17 16:06:19 528

原创 Spark程序设计——accumulator、广播变量、cache

(一)accumulator(累加器、计数器) 类似于MapReduce中的counter,将数据从一个节点发送到其他各个节点上去。 通常用于监控,调试,记录符合某类特征的数据数目等。 –分布式counter Accumulator使用import SparkContext._val total_counter=sc.accumulator(OL,"total_counter")//第一个

2016-10-17 15:38:10 937

原创 Spark程序设计——应用(wordcount、join)

wordcountval lines=sc.textFile("hamlet.txt")//映射成RDDval counts=lines.flatMap(lin=>line.split(" "))//按空格进行分词 .map(word=>(word,1))//Key/value映射 .reduceByKey(_+_)//归约,把key相同的value归约重点在于理解并行化 join

2016-10-16 23:35:12 421

原创 Spark程序设计——基本流程

一、基本流程 1.创建SparkContext对象 ——封装了spark执行环境信息 2.创建RDD ——可从Scala集合或Hadoop数据集上创建 3.在RDD之上进行转换和action ——Spark提供了多种转换和action函数 4.返回结果 ——保存到HDFS中,或直接打印出来二、代码示例(一)创建SparkContext(spark程序中只能有一个) 1.创建conf

2016-10-16 23:04:29 1150

原创 Spark程序设计——Scala

1.Java JVM的高层次语言 面向对象+函数式编程 2.静态类型 性能与Java差不多 通常不需要显式写出类型(类型推断机制) 3.与Java结合完好 可直接使用任意Java类,可继承自Java类,也可从Java代码中调用Scala代码。 定义变量:var x:Int=7var x=7 //类型推断val y="hi" //只读函数:def square(x:Int):Int=

2016-10-16 20:01:12 358

原创 董西城问答整理:第二课

一、spark-shell在namenode的stand-by节点执行会报sparkContext出错,然后到active的namenode的机器起spark-shell就可以了。为什么这样 你程序里有写hdfs地址了吗?需要写为逻辑名 二、hadoop集群中有5个节点,其中1个主节点,1个备用节点,3个数据节点(数据节点上有日志节点),分配内存的时候,主备节点各分配了64G,数据

2016-10-16 12:28:50 560

原创 Hadoop-3.0.0测试(单机)环境搭建

下载hadoop-3.0.0解压到本地(基于jdk-1.8开发,jdk-1.7已停止更新) http://www-us.apache.org/dist/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz修改/etc/hosts 增加本机ip和用户名的映射修改配置文件1.hadoop-env.shexport JAVA_H

2016-10-14 16:27:43 3631

原创 董西城问答整理:第一课

一、Spark在任何情况下均比MapReduce高效吗? 请举例。 不是任何情况下都很高效,数据量非常大的时候MapReduce要比Spark快。 比如:WordCount计算的数据量是1PB的时候,MapReduce会比Spark快。 快的原因是目前Spark的Shuffle实现比较差,而Spark Shuffle这个实现正在改进,且会换成同MapReduce Shuffle一样的实现。二

2016-10-13 20:26:13 1155 1

原创 大数据相关书籍(包含Java, Scala, R, Linux, Spark, Hadoop, Hive, Hbase, Sqoop, Flume, Strom)

下面书单,有一部分英文版原版,当然价格也相对高一点,英文版部分需要在在亚马逊搜索 ,中文版大部分在京东有售!《Hadoop核心技术》 翟周伟 著《Storm分布式实时计算模式 》 [美] P.Taylor Goetz,[美] Brian O’Neill 著;董昭 译 《Hive编程指南》[Programming Hive] [美] Edward Capriolo,Dean Wampler,J

2016-10-13 17:15:49 1865 1

转载 佛祖保佑注释代码(内含神兽与美女)

效果图: 源代码:/** *        ┏┓ ┏┓+ + *       ┏┛┻━━━━━━━┛┻┓ + + *       ┃       ┃ *       ┃   ━   ┃ ++ + + + *       █████━█████ ┃+ *       ┃       ┃ + *       ┃   ┻   ┃ *       ┃

2016-10-12 20:11:49 31582

原创 String.format()方法使用

package com.codewars;import java.util.Date;/** * Created by MaYanChao on 2016/10/12.--->>>Buddha Bless, No Bug ! * // * // _ooOoo_ * // o8888888

2016-10-12 20:07:45 722

原创 Struts2中注册登录模块配置文件路径更改

<!--原因是http://www.opensymphony.com/xwork/xwork-validator-1.0.2.dtd已经不是dtd约束文件了,打开网址,发现opensymphony的网址已经迁移走了,因为xwork的东西已经并入struts2中,成为apache的一部分. 所有的dtd已经移交到http://struts.apache.org/dtds/ 这个地方. 以后stru

2016-10-04 14:06:26 289

HC_DOCS-Final_Proposed_Stipulated_Judgment_and_Injunction.docx.pdf

从2018年开始GitHub上一个名叫ONgDB的项目引起了我的关注,这个项目主要由iGov公司以开源的方式运营。ONgDB初始版本其源代码是Neo4j企业版代码库完全闭源之前的代码,后来经过一系列迭代发展有了现在稳定生产集群版本。 关于ONgDB,这个产品和公司(iGov)之前一直声称是开源的Neo4j企业版,造成很多混淆。今年2月,在硅谷法院的最终判决中,已经禁止他们继续这样宣传。目前ONgDB已经完全改版,详情可以在The Graph Foundation官网查看。 最新进展,ONgDB官网提供ONgDB Enterprise 1.0.0版本,这个版本中进行大改版并且弃用了所有与Neo4j相关的所有商标信息。该项目也存在两个发行版,分别是社区版和企业版。社区版开源协议为GPLv3,企业版开源协议为AGPLv3,商用时需要遵守对应的开源协议。

2021-05-30

针对图谱超级节点的优化方案v1.3.pptx

现实中网络结构的度分布往往呈现幂律性,意即存在这么一类节点,其拥有的边数对整个网络的边数占比显著非0,我们称这类节点为超级节点。 中证中小投资者服务中心对全体A股上市公司进行各1手的公益性持有,在A股股东关系中就是一个超级节点。【测试数据集使用开源的社交相关数据】 超级节点的存在会极大影响入库、检索和分析的效率。 请针对以下场景进行调研分析: 1、图数据库对跟超级节点有关的增删改操作效率很差,如何改善这个状况? 2、图数据库查询过程中遇到超级节点会使查询结果爆炸,如何提高检索效率? 3、如何实现含超级节点的自规避路径查询?自规避路径是指查询结果链路上不存在重复节点。

2020-05-16

Neo4j-ai-graph-technology-white-paper-EN-A4-CN_135.pdf

人工智能与图数据库技术 - 决策类算法提供上下文支持 - 增强算法学习效率 - 提高算法准确性 - 通过AI得到的结论更加具有可解释性

2020-05-16

ongdb-3.5.16集群配置.zip

ONgDB项目是neo4j企业版的一个开源分支。另外ONgDB的发起组织也在快速更新。目前最新是3.6.0版本,与企业版neo4j-3.6.0版本功能基本一致。目前企业版neo4j已经更新到4.0版本,最大的特点是支持分库操作,ONgDB还不支持分库操作。

2020-04-06

附件二+Neptune_vs_Neo4j-2020.pptx

技术指标对比:neo4j与neptune指标对比。neptune出现时间比neo4j晚,主要在AWS内部使用。客户体量很小。

2020-04-03

附件三+CASE+NO.+5-19-CV-06226-EJD+OPPOSITION+AND+RESPONSE+TO+MOTION+TO+STRIKE.pdf

法律文书:neo4j与ONgDB的官司。ONgDB项目是在neo4j闭源其商业版代码库之前流出,现在存在法律纠纷(neo4j胜算较小)。另外ONgDB的发起组织也在快速更新。目前最新是3.6.0版本,与企业版neo4j-3.6.0版本功能基本一致。目前企业版neo4j已经更新到4.0版本,最大的特点是支持分库操作,ONgDB还不支持分库操作。

2020-04-03

Neo4j-3.4.*自定义存储过程包

具体代码示例:https://github.com/crazyyanchao/zdr_neo4j_workshop

2018-12-12

neo4j-3.4.9社区版

neo4j-3.4.9社区版,可服务器部署,LINUX版本解压即可安装

2018-12-11

windows文本转换为linux文本

man dos2unix查看帮助 安装命令:rpm -ivh --force ***.rpm 转换多个文件命令:dos2unix file1 file2

2017-12-05

VIM配置文件

VIM配置文件

2017-03-13

JAVA数据结构实验报告

Java版数据结构试验报告

2016-11-12

JAVA web应用系统设计实验报告

包含源代码和截图

2016-11-07

linux 安装oracle rpm包

安装文档与rpm包,全部 # rpm -ivh compat-db-4.1.25-9.i386.rpm # rpm -ivh compat-gcc-32-3.2.3-47.3.i386.rpm # rpm -ivh compat-gcc-32-c++-3.2.3-47.3.i386.rpm # rpm -ivh libaio-devel-0.3.105-2.i386.rpm # rpm -ivh libaio-0.3.105-2.i386.rpm # rpm -ivh compat-oracle-rhel4-1.0-5.i386.rpm # rpm -ivh compat-libcwait-2.1-1.i386.rpm # rpm -ivh compat-libgcc-296-2.96-132.7.2.i386.rpm # rpm -ivh compat-libstdc++-296-2.96-132.7.2.i386.rpm # rpm -ivh compat-libstdc++-33-3.2.3-47.3.i386.rpm # rpm -ivh openmotif21-2.1.30-11.RHEL4.6.i386.rpm # rpm -ivh giflib-4.1.3-8.i386.rpm # rpm -ivh glib-1.2.10-26.fc7.i386.rpm # rpm -ivh libpng10-1.0.18-2.i386.rpm # rpm -ivh ORBit-0.5.17-22.rhel5.i386.rpm # rpm -ivh gtk+-1.2.10-57.fc7.i386.rpm # rpm -ivh imlib-1.9.15-2.fc7.i386.rpm # rpm -ivh gnome-libs-1.4.1.2.90-44.1.i386.rpm # rpm -ivh gnome-libs-devel-1.4.1.2.90-44.1.i386.rpm # rpm -ivh xorg-x11-deprecated-libs-devel-6.8.2-1.EL.13.36.i386.rpm # rpm -ivh xorg-x11-deprecated-libs-6.8.2-1.EL.13.36.i386.rpm

2016-11-03

Struts2+Spring3+Hibernate4零配置所需全部jar包

Struts2+Spring3+Hibernate4零配置所需全部jar包

2016-10-30

数据库题库

数据库题库、内含两套题库、SqlServer考试必备

2015-12-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除