自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

python的博客

to make each day with thinking and counting!

  • 博客(18)
  • 收藏
  • 关注

原创 mongodb在ubutun上的安装

前提条件Ubuntu安装10Gen的GPG key$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10编辑source.list文件添加10gen源$ sudo vi /etc/apt/sources.list添加:deb http://downloads-dist

2016-06-27 02:07:31 929

原创 spark中的partition和block的关系

今天写代码写到用rdd.cartesion(RDD),就查看了下源码部分,涉及到了partition,就整理了这块的知识点,大家可做参考hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会

2016-06-26 17:02:35 4233 1

原创 什么是SparkDAG

对于DAG这个概念现在很多上面都有所应用概念在spark里每一个操作生成一个RDD,RDD之间连一条边,最后这些RDD和他们之间的边组成一个有向无环图,这个就是DAG。在spark的应用Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图,也就是DAG。有了计算的DAG图,Spark内核下一步的任务就是根据DAG图将计算划分成任务集,也就是Stage,这样可

2016-06-23 00:39:12 8113

原创 mysql中插入中文报错怎么解决

今天我在写项目时写完测试代码进行maven install时出现了远程mysql服务器报错情况,报错内容如下:2016-06-19 11:31:36 WARN org.hibernate.engine.jdbc.spi.SqlExceptionHelper:144 - SQL Error: 1366, SQLState: HY0002016-06-19 11:31:36 ERROR org

2016-06-19 13:34:05 4774

原创 Hbase架构

在HBase中,表被分割成区域,并由区域服务器提供服务。区域被列族垂直分为“Stores”。Stores被保存在HDFS文件。下面显示的是HBase的结构。注意:术语“store”是用于区域来解释存储结构。HBase有三个主要组成部分:客户端库,主服务器和区域服务器。区域服务器可以按要求添加或删除。主服务器主服务器是 -分配区域给区域服务器并在Apache ZooKee

2016-06-13 23:08:24 354

原创 Scala 并行和并发编程-Futures 和 Promises

最近看了《七周七语言:理解多种编程泛型》,介绍了七种语言(四种编程泛型)的主要特性:基本语法,集合,并行/并发,其中就有 Scala。你不能指望这种书全面介绍,因为其中任何一门语言都够写一本书了~我比较关注并行/并发,但是书中关于 Scala 的并发部分——Actor,代码编译不通过,“Deprecated”,哎,这书点不负责,代码也不写采用编译器的版本。于是就到 Scala 官网看了一下

2016-06-13 22:32:47 1088

原创 java操作hdfs实例,自己封装好的

package com.hkj.hadoop.testhdfs;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.net.URI;import java.net.URISyntaxException;import java.net.URL;

2016-06-13 22:26:39 1122

原创 java8中switch(String)的错误解决

今敲着代遇到错误,因为以前用的是jdk1.7,这种switch(String)格式是可以支持的,但是在jdk1.8中却不行,思考之后摸索出解决办法以下是我报错的代码一段:private boolean checkName(String fileName, String name, String op) { switch (op) { --->在这里提示我要改用jdk1.7

2016-06-13 17:56:56 22430 6

原创 HashMap的工作原理及一些问题

HashMap一些特性HashMap可以接受null键值和值,而Hashtable则不能;HashMap是非synchronized;HashMap很快;以及HashMap储存的是键值对等等“你知道HashMap的工作原理吗?” “你知道HashMap的get()方法的工作原理吗?”HashMap是基于hashing的原理,我们使用put(key, value)存储对象到HashMap

2016-06-13 01:21:16 417

原创 maven工程里面install时jdk报错

错误提示:ERROR:No compiler is provided in this environment. Perhaps you are running on a JRE rather than a JDK解决办法:1、eclipse菜单 - Window - Preferences- Java - Installed JREs 将配置的JRE定位到JDK,例如JRE h

2016-06-12 13:26:19 2303

原创 python中高级函数应用-sort排序算法

# -*- coding: UTF-8 -*-__author__ = '汪本成'# 排序算法:# 排序也是在程序中经常用到的算法。# 无论使用冒泡排序还是快速排序,排序的核心是比较两个元素的大小。# 如果是数字,我们可以直接比较,但如果是字符串或者两个dict呢?直接比较数学上的大小是没有意义的,因此,比较的过程必须通过函数抽象出来。# 通常规定,对于两个元素x和y,如果认为x

2016-06-11 19:39:36 2134

原创 graphx初涉,结合源码学习一

Graphx中的重要概念graph1.graph成员变量有:vertices,edges,triplets.2.在triplets中,同时记录着edge和vertex成员函数函数分成几大类对所有顶点或边的操作,但不改变图结构本身,如mapEdges, mapVertices子图,类似于集合操作中的filter subGraph图的分割,即pari

2016-06-10 15:12:19 3143

转载 spark2.0

原文链接:Apache Spark 2.0 Preview: Machine Learning Model Persistence 作者:Joseph Bradley 译者:郭芮(guorui@csdn.net)简介研究机器学习用例:数据科学家建立了一个ML模型,并交给了一个工程团队在生产环境部署。数据工程师将使用Python的模型训练工作流和Java模型服务工作流

2016-06-10 12:42:29 2372

原创 利用spark进行圆周率的计算

package exampleimport org.apache.spark.{SparkContext, SparkConf}import scala.math.random/** * 利用spark进行圆周率的计算 * Created by 汪本成 on 2016/6/10. */object SparkPai { def main(args: Array[Strin

2016-06-10 02:19:15 3364

原创 推荐系统实践1---基于spark ALS做的电影推荐,参考网上的做的,能跑起来

package recommendationimport org.apache.log4j._import org.apache.spark._import org.apache.spark.mllib.recommendation.{MatrixFactorizationModel, ALS, Rating}import org.apache.spark.rdd._import sc

2016-06-10 01:42:07 4270 16

原创 python的递归函数--含尾递归

# -*- coding: UTF-8 -*-# 使用递归函数需要注意防止栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,# 每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。# 由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出__author__ = 'Administrator'#下面的函数是求阶乘和def fact(n):

2016-06-10 00:05:03 3117

原创 python中的切片--Splice

#-*- coding:UTF-8 -*-__author__ = 'Administrator'L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack'] #定义一个list#取前三个元素#方法一(笨方法)print([L[0], L[1], L[2]])print('---------------------------------

2016-06-10 00:01:37 4912

原创 Spark重要概念

(1)Spark运行模式目前最为常用的Spark运行模式有:- local:本地线程方式运行,主要用于开发调试Spark应用程序 - Standalone:利用Spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构,为解决单点故障,可以采用ZooKeeper实现高可靠(High Availability,HA)- Apache Mesos :运

2016-06-09 23:58:14 645

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除