自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Vi的博客

走的越远,离自己越近

  • 博客(17)
  • 收藏
  • 关注

原创 Scala——字符串

/** * Created by vincentliu on 7/18/2017. */object StringType { /** * scala中的字符串类型其实是Java Strng,它本身没有String * scala中String是不可变的常量,若要创建可修改的字符串,可以使用String Builder类 * java.String 中常用的方法,

2017-07-18 17:57:30 833

原创 Scala——正则表达式

import scala.util.matching.Regex/** * Created by vincentliu on 7/18/2017. */object pattern { def main(args: Array[String]): Unit = { val pattern = "Scala".r val str = "Scala is Scalable a

2017-07-18 17:57:05 492

原创 Scala——函数

import java.util.Dateimport java.util.concurrent.atomic.DoubleAccumulator/** * Created by vincentliu on 7/17/2017. */object HelloWorld { def main(args: Array[String]): Unit = { println("=====

2017-07-18 17:56:32 383

原创 Scala——提取器

/** * Created by vincentliu on 7/18/2017. */object Extractor{ def main(args: Array[String]): Unit = { println ("Apply 方法 : " + apply("Zara", "gmail.com")); println ("Unapply 方法 : " + una

2017-07-18 17:55:53 335

原创 Scala——异常

import java.io.{FileNotFoundException, FileReader, IOException}/** * Created by vincentliu on 7/18/2017. */object ex { def main(args: Array[String]): Unit = { try{ val f = new FileReade

2017-07-18 17:55:14 420

原创 Scala——集合

/** * Created by vincentliu on 7/18/2017. */object Collect { def main(args: Array[String]): Unit = { /** * List 线性集合, 可以有重复元素 * 是不可变的 */ val x = List(1, 2, 3, 4) //

2017-07-18 17:54:51 385

原创 Scala——闭包

/** * Created by vincentliu on 7/18/2017. */object Closure { def main(args: Array[String]): Unit = { println(multiplier(1)) println(multiplier(2)) } var factor = 3 // var 声明的对象是可变的

2017-07-18 17:53:58 272

原创 Scala——数组

/** * Created by vincentliu on 7/18/2017. */import Array._object Arr { def main(args: Array[String]): Unit = { // 声明数组 var z: Array[String] = new Array[String](3) // 或者 // var z =

2017-07-18 17:52:38 423

原创 决策树——python(机器学习实战)

原理步骤分解遍历数据集 循环计算提取每个特征的香农熵和信息增益 选取信息增益最大的特征 再递归计算剩余的特征顺序 将特征排序 并将分类结果序列化保存到磁盘当中递归构建决策树使用Matplotlib注解绘制树形图完整代码原理 通过提问的方式,根据不同的答案选择不同的分支, 完成不同的分类步骤分解1.遍历数据集, 循环计算提取每个特征的香农熵和信息增益, 选取信息增益最大的特征。 再递归计算

2017-07-17 13:25:58 891

原创 Sqoop ERROR tool.ImportTool: Imported Failed: There is no column found in the target table

Sqoop从oracle中导入数据到hive时,若在导入表不属于指定用户, 则在导入的表名前需要添加大写的所属用户的用户名 如: sqoop import --hive-import --connect "jdbc:oracle:thin:@(DESCRIPTION=(ADDRESS_LIST=(ADDRESS=(PROTOCOL=TCP)(HOST=xx.xxx.xx.xxx)(PORT=152

2017-07-17 09:26:15 8163

原创 kNN算法——python(机器学习实战)

原理源码加权kNN高斯函数交叉验证原理kNN(k近邻算法)的基本思想就是选择距离待分类点最近的K个点,统计这K个点中出现的分类的概率, 出现概率最高的分类即为待分类点的分类源码from numpy import *import operatordef createDataSet(): # create data set group = array([[1.0, 1.1], [

2017-07-17 09:17:31 628

原创 python2和python3 Exception

lambda:python2中是:lambda (x,y):x>y python3中改为了:lambda x_y: x_y[0] > x_y[1]) dict:python2中是:dict.iteritems() python3中是:dict.items()list的extend和append:a.extend([1,2]) ==>> [1, 2, '3', '1', 1, 2]a.appen

2017-07-17 09:07:38 613

原创 协同过滤算法

协同过滤算法简介协同过滤算法常用语推荐系统中,旨在填补用户项目关联矩阵的缺失条目,spark.mllib目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。spark.mllib使用交替最小二乘法(ALS)算法来学习这些潜在因素。原理(先占位,等我这两天搞懂了就填上)低秩矩阵最小二乘法Python实现参数 参数 含义 numBlocks 用于并行计算

2017-07-12 20:03:07 720

原创 K-Means及Spark实现Kmeans算法

K-means步骤关键步骤聚类个数K的选择初始聚类中心点的选择MLlib的K-means实现参数Spark_K-Means_PythonK-means步骤选择K个点作为初始聚类中心计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。计算距离常用欧几里得距离公式,也叫欧氏距离。查看距离的计算方法重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心点

2017-07-12 15:48:48 10562 1

原创 Spark中的Pi Estimation

源码思路源码from pyspark.sql import SparkSessionfrom random import randomfrom operator import add# Pi Estimationdef inside(p): x, y = random(), random() # 随机生成x,y坐标,在圆内或圆上则返回True return x*

2017-07-11 15:31:53 686

原创 spark-submit 参数

Spark standalone with cluster deploy mode onlySpark standalone and YARN onlyYARN-only 参数 含义 –master MASTER_URL spark://host:port, mesos://host:port, yarn, or local –deploy-mode DEPLOY_MODE

2017-07-06 11:18:47 457

原创 Oozie bundle定时调度多job

包含关系实例workflow1xmlworkflow2xmlcoordinator1xmlcoordinator2xmlbundlexmljobproperties包含关系 几个包含关系: action∈workflow∈coordinatorㄈbundle 就是workflow可以包含多可action,通过coordinator来定时调度workflow,通过bund

2017-07-06 10:09:11 3541 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除