2016年10月_马超的博客

11月 10月 06月 05月

原创 CentOS 6.5使用yum方式安装JDK

查看已安装的JDK:yum list installed |grep java查看可安装的JDK：yum -y list java*安装JDK:yum -y install java-1.8.0-openjdk*卸载已安装的JDK:yum -y remove java-1.8.0-openjdk-javadoc.x86_64

2016-10-31 12:39:08 398

原创 Spark源码走读概述

Spark代码量 ——Spark：20000loc ——Hadoop 1.0：90000loc ——Hadoop 2.0：220000loc Spark生态系统代码量 Spark生态系统概述 ——构建Spark源代码阅读环境 ——Spark源代码构成 ——Spark源代码阅读方法构建源码阅读环境1.IDE ——Eclipse / IDEA ——可直接导入 2.编译源

2016-10-22 16:50:28 898

原创 Spark Shuffle剖析

Spark核心计算——shuffle 指定两个task数量。分为两部分shuffle write 和 shuffle read Spark核心计算——shuffle write(hash-based)（逐渐被淘汰基于hash实现的shuffle）一个executor中的两个task，多线程。小文件有大量随机读，占用大量IO。map-task写到bucket的过程中，先写入buffer

2016-10-22 15:58:55 543

原创 Spark计算引擎原理

一、Spark内部原理 ——通过RDD，创建DAG（逻辑计划） ——为DAG生成物理查询计划 ——调用并执行Task 二、生成逻辑执行图：产生RDD 三、生成逻辑执行图：RDD之间关系四、生成逻辑执行图：Shuffle —每个reduce task要从每个map task端读取一部分数据，网络连接数是：M*R。—shuffle是分布式计算框架的核心数据交换方式，其实现方式直接决定

2016-10-21 23:03:13 3147

原创 Spark核心概念

Spark核心概念——RDD RDD（抽象数据集的统称Spark是对RDD的其中一种实现）：Resilient Distributed Datasets，弹性分布式数据集 1.分布在集群中的只读对象集合（由多个Partition构成） 2.可以存储在磁盘或内存中（多种存储级别） 3.通过并行“转换”操作构造 4.失效后自动重构RDD基本操作（operator） 1.Transformat

2016-10-21 19:58:31 720

原创 Spark企业级环境搭建

Chinahadoop-1节点安装Spark即可，在提交作业时由Yarn动态分发运行环境包括jar包、executor、driver等。不需要分布式部署Spark。下载hadoop压缩包之后解压hadoop后，配置文件在…/etc/hadoop目录下。下载Spark压缩包之后，解压进入Spark目录，找到conf进行配置。spark-env.sh（打通hadoop） spark-def

2016-10-21 19:05:57 770

原创董西城问答整理：第三课

一、spark加载hadoop本地库的时候出现不能加载的情况，这是什么原因导致的呢？我64位机器，当时hadoop启动的时候出现不能加载本地类库的这个问题是因为hadoop本身自带的本地库是32位的，编译完hadoop源码后我替换了hadoop-3.0.0本地库为64位的。解决办法–spark加载hadoop本地库的时候出现不能加载的情况。 vim /etc/profile export

2016-10-20 15:49:37 561

原创使用maven构建项目生成特定的目录结构

假设已经安装maven软件（系统CentOS 6.5）创建一个空的Scala Project,项目名称wordcount，包名为org.training.spark (maven)mvn archetype:generate \ -DarchetypeGroupId=org.scala-tools.archetypes \ -DarchetypeArtifactId=scala-ar

2016-10-18 19:22:22 903

简介：Spark包含一个提供常见的机器学习（ML）功能的程序库，叫做MLlib。它提供了很多种机器学习算法，包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。MLlib还提供了一些更底层的机器学习原语，包括一个通用的梯度下降优化算法。所有这些方法都被设计为可以在集群上轻松伸缩的架构。 MLlib的设计理念：把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。Ml

2016-10-17 23:55:26 1713

原创 Spark编程实例

【实例一】分布式估算pi 假设正方形边长为x，则正方形面积为：x*x，圆的面积为：pi*(x/2)*(x/2)，两者之比为：4/pi 随机产生位于正方形内的点x个，假设位于园中的有y个，则：pi=4*y/x 当x->无群大时，pi逼近真实值 object SparkPi{ //不要用继承，会有各种麻烦 def main(args:Array[String]){ //常规spa

2016-10-17 17:55:58 1678 1

原创构建集成开发环境Apache Spark

推荐使用Intellij IDEA（eclipse也可以）基本流程 –安装JDK1.7 –下载Inleilij IDEA，打开后，安装scala插件 –在Intellij IDEA中创建scala工程，导入spark-hadoop包 –编写spark程序参考文章：http://dongxicheng.org/framework-on-yarn/apache-spark-intell

2016-10-17 16:06:19 528

原创 Spark程序设计——accumulator、广播变量、cache

（一）accumulator（累加器、计数器）类似于MapReduce中的counter，将数据从一个节点发送到其他各个节点上去。通常用于监控，调试，记录符合某类特征的数据数目等。 –分布式counter Accumulator使用import SparkContext._val total_counter=sc.accumulator(OL,"total_counter")//第一个

2016-10-17 15:38:10 937

原创 Spark程序设计——应用（wordcount、join）

wordcountval lines=sc.textFile("hamlet.txt")//映射成RDDval counts=lines.flatMap(lin=>line.split(" "))//按空格进行分词 .map(word=>(word,1))//Key/value映射 .reduceByKey(_+_)//归约，把key相同的value归约重点在于理解并行化 join

2016-10-16 23:35:12 421

原创 Spark程序设计——基本流程

一、基本流程 1.创建SparkContext对象 ——封装了spark执行环境信息 2.创建RDD ——可从Scala集合或Hadoop数据集上创建 3.在RDD之上进行转换和action ——Spark提供了多种转换和action函数 4.返回结果 ——保存到HDFS中，或直接打印出来二、代码示例（一）创建SparkContext（spark程序中只能有一个） 1.创建conf

2016-10-16 23:04:29 1150

原创 Spark程序设计——Scala

1.Java JVM的高层次语言面向对象+函数式编程 2.静态类型性能与Java差不多通常不需要显式写出类型（类型推断机制） 3.与Java结合完好可直接使用任意Java类，可继承自Java类，也可从Java代码中调用Scala代码。定义变量：var x:Int=7var x=7 //类型推断val y="hi" //只读函数：def square(x:Int):Int=

2016-10-16 20:01:12 358

原创董西城问答整理：第二课

一、spark-shell在namenode的stand-by节点执行会报sparkContext出错，然后到active的namenode的机器起spark-shell就可以了。为什么这样你程序里有写hdfs地址了吗？需要写为逻辑名二、hadoop集群中有5个节点，其中1个主节点，1个备用节点，3个数据节点（数据节点上有日志节点），分配内存的时候，主备节点各分配了64G，数据

2016-10-16 12:28:50 560

原创 Hadoop-3.0.0测试（单机）环境搭建

下载hadoop-3.0.0解压到本地（基于jdk-1.8开发，jdk-1.7已停止更新） http://www-us.apache.org/dist/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz修改/etc/hosts 增加本机ip和用户名的映射修改配置文件1.hadoop-env.shexport JAVA_H

2016-10-14 16:27:43 3631

原创董西城问答整理：第一课

一、Spark在任何情况下均比MapReduce高效吗? 请举例。不是任何情况下都很高效，数据量非常大的时候MapReduce要比Spark快。比如：WordCount计算的数据量是1PB的时候，MapReduce会比Spark快。快的原因是目前Spark的Shuffle实现比较差，而Spark Shuffle这个实现正在改进，且会换成同MapReduce Shuffle一样的实现。二

2016-10-13 20:26:13 1155 1

原创大数据相关书籍（包含Java, Scala, R, Linux, Spark, Hadoop, Hive, Hbase, Sqoop, Flume, Strom）

下面书单，有一部分英文版原版，当然价格也相对高一点，英文版部分需要在在亚马逊搜索，中文版大部分在京东有售！《Hadoop核心技术》翟周伟著《Storm分布式实时计算模式》 [美] P.Taylor Goetz，[美] Brian O’Neill 著；董昭译《Hive编程指南》[Programming Hive] [美] Edward Capriolo，Dean Wampler，J

2016-10-13 17:15:49 1865 1

转载佛祖保佑注释代码（内含神兽与美女）

效果图：源代码：/** *　　　　　　　 ┏┓ ┏┓+ + *　　　　　　　┏┛┻━━━━━━━┛┻┓ + + *　　　　　　　┃　　　　　　 ┃ *　　　　　　　┃　　　━　　　┃ ++ + + + *　　　　　　 █████━█████ ┃+ *　　　　　　　┃　　　　　　 ┃ + *　　　　　　　┃　　　┻　　　┃ *　　　　　　　┃

2016-10-12 20:11:49 31582

原创 String.format()方法使用

package com.codewars;import java.util.Date;/** * Created by MaYanChao on 2016/10/12.--->>>Buddha Bless, No Bug ! * // * // _ooOoo_ * // o8888888

2016-10-12 20:07:45 722

原创 Struts2中注册登录模块配置文件路径更改

<!--原因是http://www.opensymphony.com/xwork/xwork-validator-1.0.2.dtd已经不是dtd约束文件了,打开网址,发现opensymphony的网址已经迁移走了,因为xwork的东西已经并入struts2中,成为apache的一部分. 所有的dtd已经移交到http://struts.apache.org/dtds/ 这个地方. 以后stru

2016-10-04 14:06:26 289

HC_DOCS-Final_Proposed_Stipulated_Judgment_and_Injunction.docx.pdf

从2018年开始GitHub上一个名叫ONgDB的项目引起了我的关注，这个项目主要由iGov公司以开源的方式运营。ONgDB初始版本其源代码是Neo4j企业版代码库完全闭源之前的代码，后来经过一系列迭代发展有了现在稳定生产集群版本。关于ONgDB，这个产品和公司(iGov)之前一直声称是开源的Neo4j企业版，造成很多混淆。今年2月，在硅谷法院的最终判决中，已经禁止他们继续这样宣传。目前ONgDB已经完全改版，详情可以在The Graph Foundation官网查看。最新进展，ONgDB官网提供ONgDB Enterprise 1.0.0版本，这个版本中进行大改版并且弃用了所有与Neo4j相关的所有商标信息。该项目也存在两个发行版，分别是社区版和企业版。社区版开源协议为GPLv3，企业版开源协议为AGPLv3，商用时需要遵守对应的开源协议。

2021-05-30

针对图谱超级节点的优化方案v1.3.pptx

现实中网络结构的度分布往往呈现幂律性，意即存在这么一类节点，其拥有的边数对整个网络的边数占比显著非0，我们称这类节点为超级节点。中证中小投资者服务中心对全体A股上市公司进行各1手的公益性持有，在A股股东关系中就是一个超级节点。【测试数据集使用开源的社交相关数据】超级节点的存在会极大影响入库、检索和分析的效率。请针对以下场景进行调研分析： 1、图数据库对跟超级节点有关的增删改操作效率很差，如何改善这个状况？ 2、图数据库查询过程中遇到超级节点会使查询结果爆炸，如何提高检索效率？ 3、如何实现含超级节点的自规避路径查询？自规避路径是指查询结果链路上不存在重复节点。

2020-05-16

Neo4j-ai-graph-technology-white-paper-EN-A4-CN_135.pdf

人工智能与图数据库技术 - 决策类算法提供上下文支持 - 增强算法学习效率 - 提高算法准确性 - 通过AI得到的结论更加具有可解释性

2020-05-16

ongdb-3.5.16集群配置.zip

ONgDB项目是neo4j企业版的一个开源分支。另外ONgDB的发起组织也在快速更新。目前最新是3.6.0版本，与企业版neo4j-3.6.0版本功能基本一致。目前企业版neo4j已经更新到4.0版本，最大的特点是支持分库操作，ONgDB还不支持分库操作。

2020-04-06

附件二+Neptune_vs_Neo4j-2020.pptx

技术指标对比：neo4j与neptune指标对比。neptune出现时间比neo4j晚，主要在AWS内部使用。客户体量很小。

2020-04-03

附件三+CASE+NO.+5-19-CV-06226-EJD+OPPOSITION+AND+RESPONSE+TO+MOTION+TO+STRIKE.pdf

法律文书：neo4j与ONgDB的官司。ONgDB项目是在neo4j闭源其商业版代码库之前流出，现在存在法律纠纷（neo4j胜算较小）。另外ONgDB的发起组织也在快速更新。目前最新是3.6.0版本，与企业版neo4j-3.6.0版本功能基本一致。目前企业版neo4j已经更新到4.0版本，最大的特点是支持分库操作，ONgDB还不支持分库操作。

2020-04-03

Neo4j-3.4.*自定义存储过程包

具体代码示例：https://github.com/crazyyanchao/zdr_neo4j_workshop

2018-12-12

neo4j-3.4.9社区版

neo4j-3.4.9社区版，可服务器部署，LINUX版本解压即可安装

2018-12-11

windows文本转换为linux文本

man dos2unix查看帮助安装命令：rpm -ivh --force ***.rpm 转换多个文件命令：dos2unix file1 file2

2017-12-05

VIM配置文件

2017-03-13

JAVA数据结构实验报告

Java版数据结构试验报告

2016-11-12

JAVA web应用系统设计实验报告

包含源代码和截图

2016-11-07

linux 安装oracle rpm包

安装文档与rpm包，全部 # rpm -ivh compat-db-4.1.25-9.i386.rpm # rpm -ivh compat-gcc-32-3.2.3-47.3.i386.rpm # rpm -ivh compat-gcc-32-c++-3.2.3-47.3.i386.rpm # rpm -ivh libaio-devel-0.3.105-2.i386.rpm # rpm -ivh libaio-0.3.105-2.i386.rpm # rpm -ivh compat-oracle-rhel4-1.0-5.i386.rpm # rpm -ivh compat-libcwait-2.1-1.i386.rpm # rpm -ivh compat-libgcc-296-2.96-132.7.2.i386.rpm # rpm -ivh compat-libstdc++-296-2.96-132.7.2.i386.rpm # rpm -ivh compat-libstdc++-33-3.2.3-47.3.i386.rpm # rpm -ivh openmotif21-2.1.30-11.RHEL4.6.i386.rpm # rpm -ivh giflib-4.1.3-8.i386.rpm # rpm -ivh glib-1.2.10-26.fc7.i386.rpm # rpm -ivh libpng10-1.0.18-2.i386.rpm # rpm -ivh ORBit-0.5.17-22.rhel5.i386.rpm # rpm -ivh gtk+-1.2.10-57.fc7.i386.rpm # rpm -ivh imlib-1.9.15-2.fc7.i386.rpm # rpm -ivh gnome-libs-1.4.1.2.90-44.1.i386.rpm # rpm -ivh gnome-libs-devel-1.4.1.2.90-44.1.i386.rpm # rpm -ivh xorg-x11-deprecated-libs-devel-6.8.2-1.EL.13.36.i386.rpm # rpm -ivh xorg-x11-deprecated-libs-6.8.2-1.EL.13.36.i386.rpm

2016-11-03

TA关注的人

HC_DOCS-Final_Proposed_Stipulated_Judgment_and_Injunction.docx.pdf

针对图谱超级节点的优化方案v1.3.pptx

Neo4j-ai-graph-technology-white-paper-EN-A4-CN_135.pdf

ongdb-3.5.16集群配置.zip

附件二+Neptune_vs_Neo4j-2020.pptx

附件三+CASE+NO.+5-19-CV-06226-EJD+OPPOSITION+AND+RESPONSE+TO+MOTION+TO+STRIKE.pdf

Neo4j-3.4.*自定义存储过程包

neo4j-3.4.9社区版

windows文本转换为linux文本

VIM配置文件

JAVA数据结构实验报告

JAVA web应用系统设计实验报告

linux 安装oracle rpm包

Struts2+Spring3+Hibernate4零配置所需全部jar包

数据库题库

BCP文件的解析可以用mapreduce程序实现分布式解析吗？提供一下思路？

tensorflow实现多层感知机，出现内存泄漏！

这段代码如何修改正确呢？可以返回正确的值？

我在做jsp+dao+hibernate实现登录功能时出现一个报错

JavaWeb项目，连接mysql数据库之后报出这个错误

二叉树的创建和遍历，编译成功了不知道在运行窗口输入什么。大神帮我看看