Vi的博客

走的越远,离自己越近

数据预处理—归一化(连续值和离散值)

归一化原因1. 如果多个特征之间数值差异较大,那么收敛速度会很慢。如吴恩达老师在《机器学习》中给出的例子: x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相...

2017-08-07 18:27:23

阅读数 9619

评论数 0

Scala——字符串

/** * Created by vincentliu on 7/18/2017. */ object StringType { /** * scala中的字符串类型其实是Java Strng,它本身没有String * scala中String是不可变的常量,若要创建可...

2017-07-18 17:57:30

阅读数 485

评论数 0

Scala——正则表达式

import scala.util.matching.Regex/** * Created by vincentliu on 7/18/2017. */ object pattern { def main(args: Array[String]): Unit = { val pa...

2017-07-18 17:57:05

阅读数 257

评论数 0

Scala——函数

import java.util.Date import java.util.concurrent.atomic.DoubleAccumulator/** * Created by vincentliu on 7/17/2017. */ object HelloWorld { def m...

2017-07-18 17:56:32

阅读数 218

评论数 0

Scala——提取器

/** * Created by vincentliu on 7/18/2017. */ object Extractor{ def main(args: Array[String]): Unit = { println ("Apply 方法 : " + a...

2017-07-18 17:55:53

阅读数 208

评论数 0

Scala——异常

import java.io.{FileNotFoundException, FileReader, IOException}/** * Created by vincentliu on 7/18/2017. */ object ex { def main(args: Array[Str...

2017-07-18 17:55:14

阅读数 248

评论数 0

Scala——集合

/** * Created by vincentliu on 7/18/2017. */ object Collect { def main(args: Array[String]): Unit = { /** * List 线性集合, 可以有重复元素 *...

2017-07-18 17:54:51

阅读数 243

评论数 0

Scala——闭包

/** * Created by vincentliu on 7/18/2017. */ object Closure { def main(args: Array[String]): Unit = { println(multiplier(1)) println(mul...

2017-07-18 17:53:58

阅读数 150

评论数 0

Scala——数组

/** * Created by vincentliu on 7/18/2017. */ import Array._ object Arr { def main(args: Array[String]): Unit = { // 声明数组 var z: Array[Str...

2017-07-18 17:52:38

阅读数 248

评论数 0

决策树——python(机器学习实战)

原理 步骤分解 遍历数据集 循环计算提取每个特征的香农熵和信息增益 选取信息增益最大的特征 再递归计算剩余的特征顺序 将特征排序 并将分类结果序列化保存到磁盘当中 递归构建决策树 使用Matplotlib注解绘制树形图 完整代码原理 通过提问的方式,根据不同的答案选择不同的分支, 完成不同的分类...

2017-07-17 13:25:58

阅读数 366

评论数 0

Sqoop ERROR tool.ImportTool: Imported Failed: There is no column found in the target table

Sqoop从oracle中导入数据到hive时,若在导入表不属于指定用户, 则在导入的表名前需要添加大写的所属用户的用户名 如: sqoop import --hive-import --connect "jdbc:oracle:thin:@(DESCRIPTION=(ADDRESS_...

2017-07-17 09:26:15

阅读数 3600

评论数 0

kNN算法——python(机器学习实战)

原理 源码 加权kNN 高斯函数 交叉验证原理kNN(k近邻算法)的基本思想就是选择距离待分类点最近的K个点,统计这K个点中出现的分类的概率, 出现概率最高的分类即为待分类点的分类源码from numpy import * import operatordef createDataSet(): ...

2017-07-17 09:17:31

阅读数 354

评论数 0

python2和python3 Exception

lambda:python2中是:lambda (x,y):x>y python3中改为了:lambda x_y: x_y[0] > x_y[1]) dict:python2中是:dict.iteritems() python3中是:dict.items()list的extend和...

2017-07-17 09:07:38

阅读数 228

评论数 0

协同过滤算法

协同过滤算法简介协同过滤算法常用语推荐系统中,旨在填补用户项目关联矩阵的缺失条目,spark.mllib目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。spark.mllib使用交替最小二乘法(ALS)算法来学习这些潜在因素。 原理(先占位,等我这两天搞懂了就...

2017-07-12 20:03:07

阅读数 474

评论数 0

K-Means及Spark实现Kmeans算法

K-means 步骤 关键步骤 聚类个数K的选择 初始聚类中心点的选择 MLlib的K-means实现 参数 Spark_K-Means_PythonK-means步骤 选择K个点作为初始聚类中心 计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。计算距离常用欧几里...

2017-07-12 15:48:48

阅读数 4734

评论数 0

Spark中的Pi Estimation

源码 思路源码from pyspark.sql import SparkSession from random import random from operator import add # Pi Estimation def inside(p): x, y = random(), ra...

2017-07-11 15:31:53

阅读数 374

评论数 0

spark-submit 参数

Spark standalone with cluster deploy mode only Spark standalone and YARN only YARN-only 参数 含义 –master MASTER_URL spark://host:port, mesos://hos...

2017-07-06 11:18:47

阅读数 264

评论数 0

Oozie bundle定时调度多job

包含关系 实例 workflow1xml workflow2xml coordinator1xml coordinator2xml bundlexml jobproperties包含关系 几个包含关系: action∈workflow∈coordinatorㄈbundle 就是wo...

2017-07-06 10:09:11

阅读数 2211

评论数 1

Oozie调度sqoop导入hive

command模式 workflow.xml的编写: 红框内的内容一定要写,否则数据只能导入到hdfs上,不能导入hive中。 hive.metastore.uris的值在hive-site.xml中查找 将sqoop/lib下的所有jar上传到hdfs上的ShareLib文件夹 arg模式

2017-06-28 14:34:25

阅读数 983

评论数 0

Oozie调用shell脚本

job.properties的通用配置注:这里nameservice1 是hadoop中hdfs-site.xml中的dfs.nameservices。cm:8032是yarn-site.xml中的yarn.resourcemanager.addressworkflow.xml配置执行shell程...

2017-06-27 17:21:06

阅读数 1928

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭