自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 遗传算法常用算子

交叉:离散重组、中间重组、线性重组、正态分布交叉、模拟二进制交叉、二项式分布交叉、两点交叉、指数交叉、多点交叉、顺序交叉、部分匹配交叉、洗牌指数交叉、洗牌交叉、单点交叉、均匀分布交叉等。...

2020-03-31 17:31:28 2863

转载 【Breeze】常用方法

转载自https://blog.csdn.net/u012102306/article/details/53463388导入import breeze.linalg._import breeze.numerics._Breeze创建函数:  操作名称Breeze函数对应Numpy函数全0矩阵DenseMatrix.zeros[Doub...

2019-03-24 16:49:44 698

原创 【Spark】变长数组转换为Row对象(RDD to DataFrame)

在RDD转换为DataFrame时,若RDD每个元素长度未知时,可将RDD每个元素转换为Seq,利用Row.fromSeq方法将Seq转换为Row,进而转换为DataFrame。

2019-03-19 21:34:30 4827

转载 【PCFGs】Probabilistic Context-Free Grammars

概率上下文无关文法follow http://www.cs.columbia.edu/~mcollins/

2019-02-16 22:15:34 204

转载 【Scala】函数柯里化

def abc(x: Int)(y: Int)(implicit z: Int=10)=x+y+zdef ab=abc(2) _很强大 abc(1)(2)(3)=6abc(1)(2)=13 implicit val a=100abc(1)(2)=103 

2019-02-04 13:57:52 151

转载 【Scala】apply,Trait

apply在伴生对象实现类的初始化Trait特质,类似于java的接口,与抽象类不同的是,Trait可多继承。Trait中的方法可以实现,而java中的接口方法只能是抽象的。 Trait 混入:需求:在不改变类的定义的情况下,通过混入Trait来实现对某类中方法的重新定义。Trait调用链:...

2019-02-03 23:14:55 229

转载 【Scala】类和对象,构造器

private:自己和伴生对象能访问private[this]:只有自己能访问,伴生对象都不能访问 主构造器:例:class Student(var id:Int, val name:String, xx: String)xx则默认为 private val xx 辅助构造器:不能写修饰符。例:class Student private[this] ( var id: ...

2019-02-03 16:08:00 164

转载 【Scala】数据类型

Any :所有其他类的父类,包括值类型AnyVal,和引用类型AnyRefAnyVal:所有值类型的父类,包括Int,Double,Boolean,Unit等等AnyRef:所有引用类型的父类,包括NullNull:所有引用类型的子类,只有一个实例,即nullNothing:所有类的子类Unit:只有一个实例,即()...

2019-02-03 13:04:42 311

原创 spark常用方法(scala):分组-应用-联合

对dataframe分组-应用-联合:df.map(item->( , ,..., )) //将Row map成元祖.groupByKey(...).flatMapGroups((_, info) => {val list = info.toList.sortBy(...)list.map(item => {//}).toIterator})....

2018-12-18 11:32:38 647

原创 【pyspark+anaconda】环境配置问题

问题:pyspark中用到的pyarrow模块在计算节点上无法导入原因:anaconda须在所有节点上安装,且保证用户所用的python指向正确解决:所有节点上安装了anaconda,保证所有anaconda所有用户都能访问与执行。再将/usr/bin目录下的python软连接到anaconda目录下的python。使anaconda中的python为默认 ...

2018-12-05 17:31:17 847

原创 pyspark求近似分位数。添加index

求近似分位数:DataFrame.approxQuantile()方法 对DataFrame添加index:先建窗口,再用sql.functions的row_number()例:from pyspark.sql import functions as Fw = Window.orderBy("aggressive")withIndexDF = tmpDF.withCo...

2018-11-30 17:30:32 3351

原创 用于Spark的Jupyter和Zeppelin安装(Ubuntu)

前提:安装好了Hadoop和SparkJupyter下载Anaconda Distribution最新版本 参考文章基于pyspark 和scala spark的jupyter notebook 安装以及anaconda官方文档安装:bash $AnacondaDistributionFilevim ~/.bashrcexport PYSPARK_DRIVER_PYTHON=ju...

2018-07-20 16:06:01 1150

转载 Hadoop+Spark分布式安装(Ubuntu)

Hadoop安装教程_单机/伪分布式配置 Hadoop集群安装配置教程 Spark 2.0分布式集群环境搭建 按上述搭建后,无法以spark on yarn运行。参考spark on yarn 配置及异常解决,配置各节点的yarn-site.xml,添加 <property> <name>yarn.nodemanager.pmem-check-enable...

2018-07-20 13:50:00 336

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除