2018年08月_2Tree

转载 Dubbo框架设计

框架设计整体设计图例说明：图中左边淡蓝背景的为服务消费方使用的接口，右边淡绿色背景的为服务提供方使用的接口，位于中轴线上的为双方都用到的接口。图中从下至上分为十层，各层均为单向依赖，右边的黑色箭头代表层之间的依赖关系，每一层都可以剥离上层被复用，其中，Service 和 Config 层为 API，其它各层均为 SPI。图中绿色小块的为扩展接口，蓝色小块为实现类，图中只显示...

2018-08-28 10:00:37 169

原创 Scala循环中的“break”中断

Scala中没有内置的break语句，但是如果您运行的是Scala 2.8版本，则可以使用break语句。当循环中遇到break语句时，循环将立即终止，程序控制跳到循环之后的下一个语句执行。语法以下是break语句的语法 -// import following packageimport scala.util.control._// create a Breaks objec...

2018-08-21 10:40:58 1040

原创 specs_2.8.0-1.6.5.jar of scala-demo build path is cross-compiled with an incompatible version of Sca

Description Resource Path Location Typespecs_2.8.0-1.6.5.jar of scala-demo build path is cross-compiled with an incompatible version of Scala (2.8.0). In case this report is mistaken, thi...

2018-08-20 17:51:05 911

原创 Akka官网demo启动报错，解决办法将jdk升级为jdk-8u181！！！

Exception in thread "main" java.lang.VerifyError: Uninitialized object exists on backward branch 209Exception Details: Location: scala/collection/immutable/HashMap$HashTrieMap.split()Lscala/col...

2018-08-20 17:01:33 1672

原创 Spark的应用场景有哪些？

Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态系统，主要应用场景如下：　　1. Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小;　　2. 由于RDD的特性，Spa...

2018-08-20 12:02:50 18527

转载 spark 与storm的对比及适用场景

学习大数据有一段时间了，学完spark 和storm 后，就希望这两个实时处理系统做个对比，以便于在以后的技术选型方面有很好的把握。转载如下：http://www.cnblogs.com/yaohaitao/p/5703288.html 对比点 Storm Spark Streaming 实时计算模型 ...

2018-08-20 11:59:44 867

原创 Spark记录-spark报错Unable to load native-hadoop library for your platform

Spark记录-spark报错Unable to load native-hadoop library for your platform解决方案一：#cp $HADOOP_HOME/lib/native/libhadoop.so $JAVA_HOME/jre/lib/amd64#源码编译snappy---./configure make & make install#...

2018-08-20 11:26:41 1685

翻译什么是NumPy？

什么是NumPy？NumPy是Python中科学计算的基础包。它是一个Python库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用于数组快速操作的各种例程，包括数学，逻辑，形状操作，排序，选择，I / O离散傅立叶变换，基本线性代数，基本统计运算，随机模拟等等。NumPy包的核心是ndarray对象。这封装了同构数据类型的n维数组，许多操作在编译代码中执行以提高性能。NumP...

2018-08-17 11:18:47 11629

翻译 Spark机器学习库（MLlib）指南

机器学习库（MLlib）指南MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：ML算法：常见的学习算法，如分类，回归，聚类和协同过滤特征化：特征提取，转换，降维和选择管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法，模型和管道实用程序：线性代数，统计，数据处理等。声明：基于DataFrame...

2018-08-16 16:58:53 4508

转载 Spark 实战，第 6 部分: 基于 Spark ML 的文本分类

转自：https://blog.csdn.net/qq_28743951/article/details/53872829引言文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景，如新闻网站的新闻自动分类，垃圾邮件检测，非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类...

2018-08-16 16:54:51 973

转载 Spark 实战，第 5 部分: 使用 ML Pipeline 构建机器学习工作流

转自：https://blog.csdn.net/qq_28743951/article/details/53872794引言使用机器学习 (Machine Learning) 技术和方法来解决实际问题，已经被成功应用到多个领域，我们经常能够看到的实例有个性推荐系统，金融反欺诈，自然语言处理和机器翻译，模式识别，智能控制等。一个典型的机器学习机器学习过程通常会包含：源数据 ETL，数据预处...

2018-08-16 16:52:54 910

转载 Spark 实战，第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析

转自：https://blog.csdn.net/qq_28743951/article/details/53872757引言提起机器学习 (Machine Learning)，相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是一项复杂的工作，需要充足的知识储备，如概率论，数理统计，数值逼近，最优化理论等。机器学习旨在使计算机具有人类一样的学习能力和模...

2018-08-16 16:51:33 4879

转载 Spark 实战，第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析

转自：https://blog.csdn.net/qq_28743951/article/details/53872706引言在很多领域，如电信，金融等，每天都会产生大量的结构化数据，当数据量不断变大，传统的数据存储 (DBMS) 和计算方式 (单机程序) 已经不能满足企业对数据存储，统计分析以及知识挖掘的需要。在过去的数年里，传统的软件开发和维护人员已经积累了大量的基于 DBMS 的操作...

2018-08-16 16:49:15 3240

转载 Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统

转自：https://blog.csdn.net/qq_28743951/article/details/53872634引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要。流计算的出现，就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同，流计算模...

2018-08-16 16:46:19 715

转载 Spark 入门实战之最好的实例

转载：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE 搭建 Scala 语言开发环境很容易，Scala IDE 官网下载合适的版本并解压就可以完成安装，本文使用的版本是 4.1.0。安装 Scala 语言包如果下载的 Scala IDE 自带的...

2018-08-16 16:34:28 45149 7

翻译 JAVA程序员的SCALA教程

作者：Michel Schinz和Philipp Haller介绍本文档简要介绍了Scala语言和编译器。它适用于已经拥有一些编程经验并希望了解他们可以使用Scala做什么的人。假定了面向对象编程的基本知识，特别是在Java中。第一个例子作为第一个例子，我们将使用标准的Hello world程序。它不是很吸引人，但可以很容易地演示Scala工具的使用，而不必过多地了解语言。以下是它...

2018-08-16 16:23:17 412

翻译什么是Apache Hadoop？

什么是Apache Hadoop？Apache™Hadoop®项目开发了用于可靠，可扩展的分布式计算的开源软件。Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务...

2018-08-15 17:41:11 3192

原创 Spark从本地文件中统计包含某个字母的行数

Spark从本地文件中统计包含某个字母的行数:import org.apache.spark.SparkConf;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.SparkSession;/** * spark从文件中统计包含某个字段的记录数 * @author admin * */public ...

2018-08-15 15:00:20 2602

原创初始化Spark,并进行简单的RDD数据的map,filter,reduce操作

初始化Spark,并进行简单的RDD数据的map,filter,reduce操作 import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.j...

2018-08-15 14:50:49 2893

翻译 Spark的RDD编程指南

RDD编程指南概观与Spark链接初始化Spark 使用Shell 弹性分布式数据集（RDD）并行化集合外部数据集 RDD操作基本将函数传递给Spark 了解闭包例本地与群集模式打印RDD的元素使用键值对转换操作随机操作背景绩效影响 RDD持...

2018-08-15 13:19:53 315

翻译 spark自包含的应用程序

自包含的应用程序假设我们希望使用Spark API编写一个自包含的应用程序。我们将在Scala（使用sbt），Java（使用Maven）和Python（pip）中使用简单的应用程序。此示例将使用Maven编译应用程序JAR，但任何类似的构建系统都可以使用。我们将创建一个非常简单的Spark应用程序，SimpleApp.java：/* SimpleApp.java */impor...

2018-08-15 13:12:37 388

翻译 Spark概述

Spark概述Apache Spark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括Spark SQL用于SQL和结构化数据的处理，MLlib机器学习，GraphX用于图形处理和Spark Stream。下载从项目网站的下载页面获取Spark 。本文档适用于Spark版本2....

2018-08-15 13:04:06 362

翻译 Spark独立模式

Spark独立模式将Spark Standalone安装到群集手动启动群集群集启动脚本将应用程序连接到群集启动Spark应用程序资源调度执行者调度监控和记录与Hadoop一起运行配置网络安全端口高可用性与ZooKeeper的待机大师使用本地文件系统进行单节点恢复除了在Mesos或YARN集群管理器上运行外，Spark还提供了一种简单的独立...

2018-08-15 13:02:38 635

转载机器学习应该了解的十大算法

转自：https://blog.csdn.net/erlib/article/details/52289454毫无疑问，近些年机器学习和人工智能领域受到了越来越多的关注。随着大数据成为当下工业界最火爆的技术趋势，机器学习也借助大数据在预测和推荐方面取得了惊人的成绩。比较有名的机器学习案例包括Netflix根据用户历史浏览行为给用户推荐电影，亚马逊基于用户的历史购买行为来推荐图书。那么，如果...

2018-08-14 13:49:07 1761

原创 tesseract 命令大全

Usage: tesseract --help | --help-extra | --help-psm | --help-oem | --version tesseract --list-langs [--tessdata-dir PATH] tesseract --print-parameters [options...] [configfile...] tesseract im...

2018-08-14 11:41:21 3389

介绍：Python-tesseract是python的光学字符识别（OCR）工具。也就是说，它将识别并“读取”嵌入图像中的文本。Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用，因为它可以读取Python Imaging Library支持的所有图像类型，包括jpeg，png，gif，bmp，tiff等，而tesseract-...

2018-08-14 11:10:19 24646

原创 Tesseract-OCR使用报错-Error opening data file E:\study_software\Tesseract-OCR;/chi_sim.traineddata

Error opening data file E:\study_software\Tesseract-OCR;/chi_sim.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'ch...

2018-08-14 10:35:06 9971

原创 jquery如何input[type=date]设置值,一定要小于10的月份和天数的前面的0补上，不然设置不了值

var deliverDate = new Date(result.data.deliverDate);var year = deliverDate.getFullYear();//格式化日，如果小于9，前面补0var day = ("0" + deliverDate.getDate()).slice(-2);//格式化月，如果小于9，前面补0var month = ("0" +...

2018-08-10 14:45:27 2164

javaZhong的博客