白乔-CSDN博客

转载提高HTML5 canvas性能的几种方法！

http://blog.csdn.net/zyz511919766/article/details/7401792简介HTML5 canvas 最初起源于苹果（Apple）的一项实验，现在已经成为了web中受到广泛支持的2D快速模式绘图（2D immediate mode graphic）的标准。许多开发者现在利用它来实现众多的多媒体项目、可视化醒目以及游戏等等。然而，随着我们构建的应用程序的复杂

2018-01-22 17:31:38 619

原创 javascript中两种类方法的定义

第一种方法：function Point(x, y) { this.x = x; this.y = y; this.delta = function (delta) { this.x += delta.x; this.y += delta.y; }}生成的每个对象都有一份delta()函数：第二种方法：采用

2018-01-16 23:05:59 319

转载知识图谱的应用

https://zhuanlan.zhihu.com/liwenzhe/20394260原文链接（同一个作者，大数据中心公众号）：知识图谱的应用导读知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内，互联网巨头百

2017-12-10 20:17:48 25837

转载 virtuoso 安装与使用

http://www.flykun.com/virtuoso%E5%AE%89%E8%A3%85-ubuntu%E7%8E%AF%E5%A2%83/http://www.flykun.com/%E4%B8%8A%E4%BC%A0rdf%E6%96%87%E4%BB%B6%E5%88%B0virtuoso%EF%BC%8C%E5%B9%B6%E9%80%9A%E8%BF%87sparql%E6%9F

2017-11-07 18:10:24 33179 3

转载 ./configure,make,make install的作用

http://www.linuxidc.com/Linux/2011-02/32211.htm这些都是典型的使用GNU的AUTOCONF和AUTOMAKE产生的程序的安装步骤。./configure是用来检测你的安装平台的目标特征的。比如它会检测你是不是有CC或GCC，并不是需要CC或GCC，它是个shell脚本。make是用来编译的，它从Makefile中读取指令，然后编译。make insta

2017-11-07 17:17:43 301

转载发布Maven构件到中央仓库

https://my.oschina.net/songxinqiang/blog/313226使用maven有一段时间了，不管你同意与否，我都坚决认定maven是很伟大的软件项目，使用它，可以节约很多时间，特别是和git搭配使用的时候，简直就是绝了，就像川菜的花椒和海椒的搭配一样，无与伦比，用过之后肯定会爱上它的。在我的以前的博客里面有关于怎样使用git（eclipse里面的egit插件）管理项目

2017-10-17 21:57:11 439 1

转载基于tensorflow + Vgg16进行图像分类识别的实验

转载自 http://blog.csdn.net/sparkexpert/article/details/70208572图像分类识别目前已经得到了很大的飞跃，特别是15年微软提出的resnet已经超越人类，能够对图像中的物体进行更好的识别。为了初步了解一下图像分类识别的过程，学习了一下大牛的主页，发现还是很有意思的。而且从imagenet的角度来说，这个经度还是可以接受的。本实验主要参照了这个网

2017-09-21 13:27:23 7228 2

原创利用Spark mllib识别点阵文本

Step 1准备手写字体，生成图片；总共写了10个字：你、我、他、分、布、式、计、算、框、架，每个写了10遍然后写了5个待识别的字：你、我、好、世、界、框、架图片如下（手机上写的，字丑见谅！） Step 2切割图片（抠图），对齐大小至64*64，输出二值化（0-1）点阵，此处参考了网上的部分代码，java源码如下：import java.awt.Color;import java.awt

2017-09-21 11:09:32 1645 2

原创 spark的几个示例

统计《红楼梦》和《西游记》里面高频字：scala> spark.read.textFile("/Users/bluejoe/testdata/xiyou.txt").map(_.replaceAll("[\\x00-\\xff]|，|。|：|．|“|”|？|！|　", "")).flatMap(_.split("")).groupBy("value").count.sort($&quot

2017-09-20 20:34:39 654 1

转载 Quartz使用总结

转载自http://www.cnblogs.com/drift-ice/p/3817269.htmlQuartz可以用来做什么？Quartz是一个任务调度框架。比如你遇到这样的问题想每月25号，信用卡自动还款想每年4月1日自己给当年暗恋女神发一封匿名贺卡想每隔1小时，备份一下自己的爱情动作片学习笔记到云盘这些问题总结起来就是：在某一个有规律的时间点干某件事。并且时间的触发的条件可以非常复杂（比如

2017-09-18 22:18:08 552 1

原创云盘开发利器elfinder

elFinder 是一个基于 Web 的文件管理器，灵感来自 Mac OS X 的 Finder 程序。elFinder 的安装方法很简单，按照以下几个步骤即可：1. 引入 jQuery 和 jQuery UI 包[html] view plain copyscript src="js/jquery.js" type="text/javascript" charset="utf-8">script

2017-09-15 21:04:54 6311 7

转载将项目发布到Maven中央库

https://my.oschina.net/looly/blog/270767摘要: 前几天参考@黄勇大神的博客http://my.oschina.net/huangyong/blog/226738成功将我的Hutool项目发布到了Maven的中央库，发表这篇博客以做纪念，顺便重新整理步骤并说明一下在发布过程中遇到的一些原博客中没有说明的问题。前几天参考[@黄勇]1 大神的博客 http://

2017-09-15 20:28:37 407 1

原创白乔原创：著名Web文件管理器elfinder的后端服务器

https://github.com/bluejoe2008/elfinder-2.x-servlet elfinder是一款基于Web的文件浏览器前端，但一直缺乏比较好的Java后端代码。本项目集成了elfinder的前端代码，并提供了一个基于Java的后端实现。文件管理器支持文件的浏览、查看、搜索等操作。通过接口设计，开发者可根据具体的情况模拟文件目录。 what's ...

2017-09-11 09:08:02 8732 3

转载大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

http://www.infoq.com/cn/articles/hadoop-storm-samza-spark-flink/简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、

2017-09-06 21:54:32 402 1

转载深入理解Apache Flink核心技术

2017-09-06 20:57:43 677 1

转载 Flink架构、原理与部署测试

http://blog.csdn.net/jdoouddm7i/article/details/62039337Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为它们所提供的SLA（Service-Level-Aggreemen

2017-09-06 20:51:27 603 1

转载 Apache Flink vs Apache Spark

https://www.iteblog.com/archives/1624.html我们是否还需要另外一个新的数据处理引擎？当我第一次听到Flink的时候这是我是非常怀疑的。在大数据领域，现在已经不缺少数据处理框架了，但是没有一个框架能够完全满足不同的处理需求。自从Apache Spark出现后，貌似已经成为当今把大部分的问题解决得最好的框架了，所以我对另外一款解决类似问题的框架持有很强烈的怀疑态

2017-09-06 20:45:27 2624 2

原创 spark数据流的合并与分支

spark数据流（data flow）的合并可以通过union来实现。先测试一下批量数据（batching data）的union：scala> Seq("1","2","3","4").toDS.union(Seq("a","b","c","d").toDS).show+-----+|value|+-----+| 1|| 2|| 3|| 4|| a|

2017-09-06 16:27:51 2823 1

原创进一步理解DataFrame, Dataset, RDD

Dataset类似于RDD+schema 如下代码创建一个Dataset：scala> import spark.implicits._import spark.implicits._scala> val ds = Seq(("bluejoe", 100), ("alex", 200)).toDSds: org.apache.spark.sql.Dataset[(String, Int)] =

2017-09-04 20:35:00 4760 1

原创 kafka开发笔记

最近又要用上kafka，发现原来趟过的坑又趟过了一次在这里做一下笔记，提醒以后注意：如果连不上brokers，consumer.poll()会阻塞同一个topic、同一个group的consumer，会彼此影响，哪怕前面的Test跑完了，后面创建的是新的consumer（这个至关重要）poll的正确使用方式是在死循环里面一直调用它不同partition取到的records是乱序的

2017-08-28 16:58:12 362 1

原创 spark sql对seq值的包装

spark sql对seq(s1, s2, s3, …)值的包装，seq的每个元素si会被包装成一个Row 如果si为一个简单值，则生成一个只包含一个value列的Row 如果si为一个N-Tuple，则生成一个包含N列的Row特别的，如果N-Tuple是一元组，则视为非元组，即生成一个只包含一个value列的Rowscala> Seq(("bluejoe"),("alex")).toDF().

2017-08-23 20:53:52 8437 1

原创理解scala的元组类型

scala> classOf[(Int,String)]res10: Class[(Int, String)] = class scala.Tuple2scala> classOf[(String,String)]res11: Class[(String, String)] = class scala.Tuple2scala> res10==res11res12: Boolean = true

2017-08-06 11:22:49 873 1

转载 HTTP 协议中的 Transfer-Encoding

https://imququ.com/post/transfer-encoding-header-in-http.html本文作为我的博客「HTTP 相关」专题新的一篇，主要讨论 HTTP 协议中的 Transfer-Encoding。这个专题我会根据自己的理解，以尽量通俗的讲述，结合代码示例和实际场景来说明问题，欢迎大家关注和留言交流。Transfer-Encoding，是一个 HTTP 头部字

2017-07-27 11:41:46 854 1

原创 HTTP的输出流是假的流？

最近采用HTTP的输出流发数据：val url = new URL(httpPostURL);val httpConn = url.openConnection().asInstanceOf[HttpURLConnection];httpConn.setRequestMethod("POST");httpConn.setDoOutput(true);httpConn.setDoInput(t

2017-07-16 12:13:23 469 1

原创 spark structured streaming的source解析与自定义

如下代码：val lines = spark.readStream.format("socket") .option("host", "localhost").option("port", 9999).load();会创建一个socket类型的Source，该name2class的映射由DataSource.lookupDataSource()完成val serviceLoader = Se

2017-07-14 10:06:45 1616

转载 Spark Streaming 自定义接收器

http://blog.csdn.net/ouyang111222/article/details/50414621Spark Streaming可以从任意数据源接受流数据，而不仅仅是那些内置支持的数据源（如Flume、kafka等）。这就要求开发人员实现一个接收器（recevier），用于接收来自有关数据源的数据。本篇手册以一个自定义的接收器（recevier）实现和其在spark stream

2017-07-13 21:51:25 454

原创 Spark2.0: Structured Streaming

启动nc：nc -lk 9999启动spark-shell：val lines = spark.readStream. | format("socket"). | option("host","localhost"). | option("port",9999). | load();lines: org.apache.spark.sql.DataFrame =

2017-07-13 14:14:24 542

转载 Spark Structured Streaming入门编程指南

https://www.iteblog.com/archives/2084.html概览　　Structured Streaming 是一个可拓展，容错的，基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来，Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame AP

2017-07-13 13:59:22 1830 1

转载 Java为什么会引入及如何使用Unsafe

http://www.importnew.com/14511.html综述sun.misc.Unsafe至少从2004年Java1.4开始就存在于Java中了。在Java9中，为了提高JVM的可维护性，Unsafe和许多其他的东西一起都被作为内部使用类隐藏起来了。但是究竟是什么取代Unsafe不得而知，个人推测会有不止一样来取代它，那么问题来了，到底为什么要使用Unsafe？做一些Java语言不允

2017-06-23 08:58:26 1312

转载如何将大规模数据导入Neo4j

http://blog.csdn.net/xingxiupaioxue/article/details/71747284项目需要基于Neo4j开发，由于数据量较大（数千万节点），因此对当前数据插入的方法进行了分析和对比。常见数据插入方式概览Neo4j VersionLanguage DriverCommunity 3.0.2Python neo4j-driver 1.0.0目前主要有以下几种数据插

2017-06-20 22:37:06 1883

原创 spark中的job和stage

编写了某个任务： val line = sc.textFile("hdfs://vm122:9000/dblp.rdf") line.flatMap { extractProperties }.groupBy(_._1).map(resource2JSON).saveAsTextFile("hdfs://vm122:9000/nodes");执行的时候可以看到spark分成2个stage：

2017-06-20 13:51:11 660

原创 spark任务已经执行结束，但还显示RUNNING状态

spark的任务已经执行完成：scala> val line = sc.textFile("hdfs://vm122:9000/dblp.rdf")line: org.apache.spark.rdd.RDD[String] = hdfs://vm122:9000/dblp.rdf MapPartitionsRDD[1] at textFile at <console>:24scala> val

2017-06-19 21:11:36 8097

原创查看maven引入的某个jar的依赖项

使用mvn dependency:tree即可查看到依赖树

2017-06-19 16:48:13 3124

原创采用文件流写HDFS大文件

最近有个需求，要把笔记本上的一个近30GB的文件写到HDFS上去。无奈虚拟机服务器的本地硬盘都只有20GB的容量，原始文件无法采用copyFromLocal。试了一下笔记本通过copyFromLocal写到HDFS，无奈龟速。最后想到一个办法：压缩文件，gz文件大概到7G的样子；拷贝gz文件至服务器vm1；在vm1上写程序，读取gz文件数据流，写到HDFS文件上去；结果看起来还不错，代码如下

2017-06-17 23:01:55 2931

转载 Neo4j图数据库简介和底层原理

http://www.cnblogs.com/bonelee/p/6211290.html现实中很多数据都是用图来表达的，比如社交网络中人与人的关系、地图数据、或是基因信息等等。RDBMS并不适合表达这类数据，而且由于海量数据的存在，让其显得捉襟见肘。NoSQL数据库的兴起，很好地解决了海量数据的存放问题，图数据库也是NoSQL的一个分支，相比于NoSQL中的其他分支，它很适合用来原生表达图结构的

2017-06-10 10:36:04 13779

转载 Neo4j运行原理

http://www.linuxidc.com/Linux/2012-02/53689.htm一个Neo4J HA集群的协作运行，协调行为是通过zookeeper完成的。当一个Neo4j HA实体开启时将去连接协调器服务（zookeeper）注册其本身并询问“谁是主机（master）？”。如果某个机器是主机，新的实体将以从机（slaver）开启并连接到主机（master）。如果机器开启时为第一个注

2017-06-10 10:35:10 2372

转载图形数据库 Neo4j 开发

http://www.iigrowing.cn/tu_xing_shu_ju_ku_neo4j_kai_fa.html1. Neo4j简介Neo4j 是一个高性能的 NoSQL 图形数据库。Neo4j 使用图（graph）相关的概念来描述数据模型，把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系，可以很直接地使用图中节点和关系的概念来建模。对于这样的应用，使用 Neo4j 来存

2017-06-10 10:34:04 2890

原创 neo4j写数据遭遇OOM

aaaa

2017-05-21 10:38:04 1742 1

原创 Scala匿名类的函数是private还是public？

直接贴代码：object Test1 { def main(args: Array[String]) = { def as(x: Any) = x; val fn1 = new Object() { def foo = "hello"; } val fn2 = as(new Object() {

2017-04-26 15:20:12 922

转载 Beam从零开始

转载自http://blog.csdn.net/qq_23660243/article/details/54614167网上看了别人都在谈Beam，你说咱们作为技术人员技术也得紧跟着时代不是，所以也开始利用业余时间研究Beam。咱不是大神，不能啥都一看就会，所以一天一天来，这个也就作为笔记吧。废话不多说，进入主题，按照老规矩，从官网入手。其实Beam官网目前做的不是很丰满，不过好在按照步骤进行，可

2017-03-27 08:57:26 859 1

pdsh-2.26源文件

pdsh的全称是parallel distributed shell，与pssh类似，pdsh可并行执行对远程目标主机的操作，在有批量执行命令或分发任务的运维需求时，使用这个命令可达到事半功倍的效果。同时，pdsh还支持交互模式，当要执行的命令不确定时，可直接进入pdsh命令行，非常方便。

2017-02-06

oauth2的示例工程源代码spring-security-oauth-samples（含war包）

oauth2的示例工程源代码，含build好的war包来源于github，但build会很耗时间直接取出2个target目录下的war文件改名为tonr2.war和sparklr2.war 置于webapps下启动tomcat后，访问http://localhost:8080/tonr2 即可体验演示工程

2016-02-15

java反编译器的GUI版本：jd-gui

很好的java反编译器，忘掉eclipse插件吧：）本人的eclipse无论安装哪种java反编译器，总是失败~~~ 绝望中找到jd-gui jd-gui可以关联上eclipse中的.class文件并自动在左侧的目录视图中打开class文件所在的目录同时支持各个class之间的跳转 http://jd.benow.ca/

2015-02-25