自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

铭霏的记事本

日常记录或收集有意义/有意思/有想法的文章

  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

转载 MLlib中的Random Forests和Boosting

【编者按】本文来自Databricks公司网站的一篇博客文章,由Joseph Bradley和Manish Amde撰写。此外,Databricks是由Apache Spark的创始人建立的,成立于2013年年中,目前团队人员均是开源圈子内的重量级人物,他们都热衷于"增值开源软件":任职CEO的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Co

2016-04-29 08:33:51 634

转载 Spark官方文档: Spark Configuration(Spark配置)

Spark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx”)语句设置相应系统属性值);在conf/spark-env.

2016-04-22 19:47:19 707

转载 Hive函数大全

一、关系运算:1. 等值比较: =         语法:A=B         操作类型:所有基本类型         描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE         举例:         hive>select 1 from lxw_dual where 1=1;         12. 不等值比较:          

2016-04-21 12:33:28 1882

原创 删除 SQL Server 表中的重复行

Microsoft SQL Server 表不应该包含重复行和非唯一主键。重复的主键违反了实体完整性,在关系系统中是不允许的。SQL Server 有各种强制执行实体完整性的机制,包括索引、唯一约束、主键约束和触发器。尽管如此,在某些情况下还可能会出现重复的主键;如果出现此类情况,就必须清除重复主键。出现重复主键的情形之一是,在 SQL Server 外部的非关系数据中存在重复的主键,在导入这

2016-04-21 12:15:48 8839

原创 spark log4j.properties配置详解与实例

################################################################################ #①配置根Logger,其语法为: # #log4j.rootLogger = [level],appenderName,appenderName2,... #level是日志记录的优先级,分为OFF,TRACE,DEBU

2016-04-21 11:39:50 7335

转载 矩阵特征值分解与奇异值分解含义解析及应用

特征值与特征向量的几何意义矩阵的乘法是什么,别只告诉我只是“前一个矩阵的行乘以后一个矩阵的列”,还会一点的可能还会说“前一个矩阵的列数等于后一个矩阵的行数才能相乘”,然而,这里却会和你说——那都是表象。矩阵乘法真正的含义是变换,我们学《线性代数》一开始就学行变换列变换,那才是线代的核心——别会了点猫腻就忘了本——对,矩阵乘法 就是线性变换,若以其中一个向量A为中心,则B的作

2016-04-09 20:09:34 1013

原创 LSA

引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:稀疏性(Sparseness): 对

2016-04-09 11:26:38 895

原创 Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)

直奔主题:其实这个错误就是编译的程序的scala版本和提交时的版本不一致导致的. 我是在idea上写的scala程序 用的是2.11.8,  但是在提交spark时  忽然发现spark用的是2.10.5所以解决办法 就是在idea上重新下个和spark集群上相同的版本就行了 .但是我在集群上配置的明明就是2.11.8 包括 spark-env.sh里的配置也是原因

2016-04-09 10:14:25 22563 2

原创 ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precisi

2016-04-08 20:02:26 5163

转载 Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现

深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA)、估计点集分布的高斯混合模型 (GMM)、提取频繁项集的 FP-growth、生成图聚类的 power iteration c

2016-04-08 16:09:50 1891

转载 十分钟搞定pandas

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list

2016-04-03 22:22:02 1059

原创 Windows + IDEA + SBT 打造Spark源码阅读环境

Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。下面列举搭建此环境需要的各个组件:IDEA,有两个版本

2016-04-01 19:45:31 7669

原创 VMware Workstation cannot connect to the virtualmachine.解决办法

今天打开VMware时,弹出对话框,提示下述问题:VMware Workstation cannot connect to the virtual machine. Make sure you have rights to run the program, access all directories the program uses, and access all directories

2016-04-01 14:26:40 3214

原创 Hadoop之HDFS文件操作

摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。关键词:HDFS文件    命令行     Java APIHDFS是一种分布式文件系统,为MapReduce这种框架下的海量数据分布式处理而设计。Hadoop之HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linu

2016-04-01 14:22:46 858

原创 linux下环境变量PATH设置错误的补救

之前不小心在/etc/profile中添加了错误的PATH变量,导致几乎所有的系统命令无法使用,惊出一身冷汗,然后经过多次试验终于修复成功。以下是部分经验: 首先,PATH变量记录着各系统命令的存放路径,所以平时使用系统命令时可以直接输入命令而不需要连命令的路径一起。比如"vi"命令,在PATH变量正常的时候直接输入"vi /etc/profile"就可以,而PATH变量出

2016-04-01 14:18:11 17399 5

Pycharm5汉化补丁

Pycharm5 汉化补丁 将resources_cn.jar文件复制到 (PATH)\PyCharm 5\lib目录

2016-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除