朱智文的专栏

让我们一起放逐我们的青春

今夕是何年

老了,已经半年没踏入互联网了,老了,跟不上了,进不去圈圈了,实在没有精力再进入圈圈了,身居深山,看花开花落,潮起潮落,不说了,已经三天没吃饭了,口袋就剩两毛钱了,这个月还有16天,咋过呀 ...

2019-05-16 18:13:28

阅读数 77

评论数 0

pmml(模型标准化)

PMML简介 PMML全称预言模型标记模型(Predictive Model Markup Language),以XML 为载体呈现数据挖掘模型。PMML 允许您在不同的应用程序之间轻松共享预测分析模型。因此,您可以在一个系统中定型一个模型,在 PMML 中对其进行表达,然后将其移动到另一个系统中...

2018-11-14 11:31:56

阅读数 341

评论数 0

PMML模型文件在机器学习的实践经验

这种方案,在本次参加 QCon 大会时,Paypal的机器学习平台中也有所提及: PMML 预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是,各种开发语言都可以使用相应的包,把模型文件转...

2018-11-14 10:40:48

阅读数 195

评论数 0

Spark ML函数VectorAssemble

从源数据中提取特征指标数据,这是一个比较典型且通用的步骤,因为我们的原始数据集里,经常会包含一些非指标数据,如 ID,Description 等。为方便后续模型进行特征输入,需要部分列的数据转换为特征向量,并统一命名,VectorAssembler类完成这一任务。VectorAssembler是一...

2018-10-14 16:38:16

阅读数 155

评论数 0

Spark MLlib特征处理:Normalizer 正则化---原理及实战

    实战 import org.apache.spark.ml.feature.Normalizer import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkContext, SparkConf} obje...

2018-10-14 15:22:15

阅读数 109

评论数 0

windos 安装pandas ,numpy matplotlib

pip install matplotlib -i http://pypi.douban.com/simple --trusted-host pypi.douban.com pip install numpy -i http://pypi.douban.com/simple --trusted-...

2018-09-11 16:44:45

阅读数 72

评论数 0

大话分布式缓存

最近要开公开课,马上公开,敬请期待

2018-08-31 16:37:31

阅读数 103

评论数 0

第五篇:spark on mersos 中mersos 解决了什么问题(spark2.3 持续更新中)

1.同一个分布式框架中,不通的计算任务需要不同的资源比如:cpu,核,内存,等,如果没有一个资源管理器,这些任务之间在资源索取上会出现竞争,导致有些任务有足够的资源,有些任务没有足够的资源,有些需要小的资源,缺分占用了大的资源,导致有些任务没有资源,而处于持续等待中,2.不通的分布式计算框架,当他...

2018-07-05 11:04:26

阅读数 114

评论数 0

第四篇:coalesce 和repartition 在shuffle 和并行度之间的选择(spark2.3持续更新中...........)

coalesce:不需要shuffle, 最大线程数,并行度受分区数的影响def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, log...

2018-07-04 17:16:56

阅读数 454

评论数 0

第三篇:mapPartition 与map 的区别(demo 语言:java)共1000篇(spark2.3持续更新中...........)

不同点:第一:map 是推模式,mapPartition 是拉模式第二:入参:map 是一个元素,mapPartition 是一个分区的数据相同点:第一:都是进行分区的并行处理。

2018-07-04 11:40:47

阅读数 471

评论数 0

第二篇:sparkContext 做了什么(demo 语言:java)共1000篇(spark2.3持续更新中...........)

首先列下sparkContext 做了哪些事,以及市怎么做的1:sparkContext  在driver 端创建2:构造参数:sparkconf 配置文件(配置参数没提到的的变量,将用默认参数使用)  2,1 参数中几个重要的参数:是否允许多个sparkContextconfig.getBool...

2018-06-29 18:21:20

阅读数 355

评论数 0

第一篇:Encoders类研究(demo 语言:java)共1000篇(spark2.3持续更新中...........)

Dataset<CityToCityLevel> resultTmp = result2.map((MapFunction<Row, CityToCityLevel>) row -&am...

2018-06-17 15:19:25

阅读数 275

评论数 0

spark源码阅读笔记Spark原理(一)基本前提

分布式与集群的区别是什么?集群是个物理形态,分布式是个工作方式。集群:一堆机器,进行统一管理。集群可以运行多个分布式系统,比如同时有hadoop和spark分布式:一个程序或系统运行在不同的机器上,這些机器可以是来自同一个集群也可以是不同集群集群下编程环境的挑战有哪些?第一个是并行化: 这需要以并...

2018-05-10 18:10:32

阅读数 256

评论数 0

Sql 中Collate用法

今天查询sqlite的时候需要不区分大小写,查了下文档,需要使用collate nocase.顺便学习下collate的用法。collate在sql中是用来定义排序规则的。排序规则其实就是当比较两个字符串时,根据某种规则来确定哪个比较大,是否相等。各个数据库支持不同的排序规则。sqlite有三种b...

2018-04-28 14:25:13

阅读数 941

评论数 0

maven 仓库(本地仓库,私服,远程仓库)

Maven 仓库的分类:maven的仓库只有两大类:1.本地仓库 2.远程仓库,在远程仓库中又分成了3种:2.1 中央仓库 2.2 私服 2.3 其它公共库1.本地仓库,顾名思义,就是Maven在本地存储构件的地方。注:maven的本地仓库,在安装maven后并不会创建,它是在第一次执行maven...

2018-04-28 09:52:44

阅读数 298

评论数 0

hashMap为啥初始化容量为2的次幂

第一篇:       HashMap可以说是Java中最常用的集合类框架之一,是Java语言中非常典型的数据结构,我们总会在不经意间用到它,很大程度上方便了我们日常开发。在很多Java的笔试题中也会被问到,最常见的,“HashMap和HashTable有什么区别?”,这也不是三言两语能说清楚的,这...

2018-04-27 17:20:04

阅读数 1928

评论数 5

任务调度 正则表达式

每 5 秒执行一次七个域从左到右依次是,秒,分,时,日,月,周几,年。。。。最后一个可选。同样是七个域与当前时间匹配的时候则执行。。。n/m 表示从n开始的每个m即,n,n+m,n+2m....* 表示任意可能的取值。比如用在秒里是0,1,2,3,...,59? 可以用在日和周几里面,表示忽略这个...

2018-04-23 11:37:56

阅读数 246

评论数 0

注解@PostConstruct与@PreDestroy讲解及实例

从Java EE 5规范开始,Servlet中增加了两个影响Servlet生命周期的注解(Annotion);@PostConstruct和@PreDestroy。这两个注解被用来修饰一个非静态的void()方法 。写法有如下两种方式:@PostConstructPublic void someM...

2018-04-19 14:14:43

阅读数 88

评论数 0

with(nolock)的用法

本文导读:要提升SQL的查询效能,一般来说大家会以建立索引(index)为第一考虑。其实除了index的建立之外,当我们在下SQL Command时,在语法中加一段WITH (NOLOCK)可以改善在线大量查询的环境中数据集被LOCK的现象藉此改善查询的效能。不过有一点千万要注意的就是,WITH ...

2018-04-19 10:50:58

阅读数 644

评论数 0

intellij注解快捷键

1、一次性添加多行注释的快捷键首先选中要注释区域,然后ctrl+/ 这个是多行代码分行注释,每行一个注释符号ctrl+shift+/ 这个是多行代码注释在一个块里,只在开头和结尾有注释符号2、取消多行注释快捷键怎样添加快捷键的,用相同方法取消,如 ctrl+/ 添加注释,则ctrl+/取消注释ct...

2018-04-16 14:24:49

阅读数 780

评论数 0

提示
确定要删除当前文章?
取消 删除