2016年06月_汪本成

原创 mongodb在ubutun上的安装

前提条件Ubuntu安装10Gen的GPG key$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10编辑source.list文件添加10gen源$ sudo vi /etc/apt/sources.list添加：deb http://downloads-dist

2016-06-27 02:07:31 929

原创 spark中的partition和block的关系

今天写代码写到用rdd.cartesion(RDD),就查看了下源码部分，涉及到了partition，就整理了这块的知识点，大家可做参考hdfs中的block是分布式存储的最小单元，类似于盛放文件的盒子，一个文件可能要占多个盒子，但一个盒子里的内容只可能来自同一份文件。假设block设置为128M，文件是250M，那么这份文件占3个block（128+128+2）。这样的设计虽然会

2016-06-26 17:02:35 4233 1

原创什么是SparkDAG

对于DAG这个概念现在很多上面都有所应用概念在spark里每一个操作生成一个RDD，RDD之间连一条边，最后这些RDD和他们之间的边组成一个有向无环图，这个就是DAG。在spark的应用Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图，也就是DAG。有了计算的DAG图，Spark内核下一步的任务就是根据DAG图将计算划分成任务集，也就是Stage，这样可

2016-06-23 00:39:12 8113

原创 mysql中插入中文报错怎么解决

今天我在写项目时写完测试代码进行maven install时出现了远程mysql服务器报错情况，报错内容如下：2016-06-19 11:31:36 WARN org.hibernate.engine.jdbc.spi.SqlExceptionHelper:144 - SQL Error: 1366, SQLState: HY0002016-06-19 11:31:36 ERROR org

2016-06-19 13:34:05 4774

原创 Hbase架构

在HBase中，表被分割成区域，并由区域服务器提供服务。区域被列族垂直分为“Stores”。Stores被保存在HDFS文件。下面显示的是HBase的结构。注意：术语“store”是用于区域来解释存储结构。HBase有三个主要组成部分：客户端库，主服务器和区域服务器。区域服务器可以按要求添加或删除。主服务器主服务器是 -分配区域给区域服务器并在Apache ZooKee

2016-06-13 23:08:24 354

原创 Scala 并行和并发编程-Futures 和 Promises

最近看了《七周七语言：理解多种编程泛型》，介绍了七种语言（四种编程泛型）的主要特性：基本语法，集合，并行/并发，其中就有 Scala。你不能指望这种书全面介绍，因为其中任何一门语言都够写一本书了~我比较关注并行/并发，但是书中关于 Scala 的并发部分——Actor，代码编译不通过，“Deprecated”，哎，这书点不负责，代码也不写采用编译器的版本。于是就到 Scala 官网看了一下

2016-06-13 22:32:47 1088

原创 java操作hdfs实例，自己封装好的

package com.hkj.hadoop.testhdfs;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.net.URI;import java.net.URISyntaxException;import java.net.URL;

2016-06-13 22:26:39 1122

原创 java8中switch(String)的错误解决

今敲着代遇到错误，因为以前用的是jdk1.7，这种switch(String)格式是可以支持的，但是在jdk1.8中却不行，思考之后摸索出解决办法以下是我报错的代码一段：private boolean checkName(String fileName, String name, String op) { switch (op) { --->在这里提示我要改用jdk1.7

2016-06-13 17:56:56 22430 6

原创 HashMap的工作原理及一些问题

HashMap一些特性HashMap可以接受null键值和值，而Hashtable则不能；HashMap是非synchronized;HashMap很快；以及HashMap储存的是键值对等等“你知道HashMap的工作原理吗？” “你知道HashMap的get()方法的工作原理吗？”HashMap是基于hashing的原理，我们使用put(key, value)存储对象到HashMap

2016-06-13 01:21:16 417

原创 maven工程里面install时jdk报错

错误提示：ERROR:No compiler is provided in this environment. Perhaps you are running on a JRE rather than a JDK解决办法：1、eclipse菜单 - Window - Preferences- Java - Installed JREs 将配置的JRE定位到JDK，例如JRE h

2016-06-12 13:26:19 2303

原创 python中高级函数应用-sort排序算法

# -*- coding: UTF-8 -*-__author__ = '汪本成'# 排序算法:# 排序也是在程序中经常用到的算法。# 无论使用冒泡排序还是快速排序，排序的核心是比较两个元素的大小。# 如果是数字，我们可以直接比较，但如果是字符串或者两个dict呢？直接比较数学上的大小是没有意义的，因此，比较的过程必须通过函数抽象出来。# 通常规定，对于两个元素x和y，如果认为x

2016-06-11 19:39:36 2134

原创 graphx初涉，结合源码学习一

Graphx中的重要概念graph1.graph成员变量有:vertices,edges,triplets.2.在triplets中，同时记录着edge和vertex成员函数函数分成几大类对所有顶点或边的操作，但不改变图结构本身，如mapEdges, mapVertices子图,类似于集合操作中的filter subGraph图的分割，即pari

2016-06-10 15:12:19 3143

转载 spark2.0

原文链接：Apache Spark 2.0 Preview: Machine Learning Model Persistence 作者：Joseph Bradley 译者：郭芮（guorui@csdn.net）简介研究机器学习用例：数据科学家建立了一个ML模型，并交给了一个工程团队在生产环境部署。数据工程师将使用Python的模型训练工作流和Java模型服务工作流

2016-06-10 12:42:29 2372

原创利用spark进行圆周率的计算

package exampleimport org.apache.spark.{SparkContext, SparkConf}import scala.math.random/** * 利用spark进行圆周率的计算 * Created by 汪本成 on 2016/6/10. */object SparkPai { def main(args: Array[Strin

2016-06-10 02:19:15 3364

原创推荐系统实践1---基于spark ALS做的电影推荐，参考网上的做的，能跑起来

package recommendationimport org.apache.log4j._import org.apache.spark._import org.apache.spark.mllib.recommendation.{MatrixFactorizationModel, ALS, Rating}import org.apache.spark.rdd._import sc

2016-06-10 01:42:07 4270 16

原创 python的递归函数--含尾递归

# -*- coding: UTF-8 -*-# 使用递归函数需要注意防止栈溢出。在计算机中，函数调用是通过栈（stack）这种数据结构实现的，# 每当进入一个函数调用，栈就会加一层栈帧，每当函数返回，栈就会减一层栈帧。# 由于栈的大小不是无限的，所以，递归调用的次数过多，会导致栈溢出__author__ = 'Administrator'#下面的函数是求阶乘和def fact(n):

2016-06-10 00:05:03 3117

原创 python中的切片--Splice

#-*- coding:UTF-8 -*-__author__ = 'Administrator'L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack'] #定义一个list#取前三个元素#方法一（笨方法）print([L[0], L[1], L[2]])print('---------------------------------

2016-06-10 00:01:37 4912

原创 Spark重要概念

（1）Spark运行模式目前最为常用的Spark运行模式有：- local：本地线程方式运行，主要用于开发调试Spark应用程序 - Standalone：利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用ZooKeeper实现高可靠（High Availability，HA)- Apache Mesos ：运

2016-06-09 23:58:14 645

python的博客