自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

朱智文的专栏

让我们一起放逐我们的青春

原创 今夕是何年

老了,已经半年没踏入互联网了,老了,跟不上了,进不去圈圈了,实在没有精力再进入圈圈了,身居深山,看花开花落,潮起潮落,不说了,已经三天没吃饭了,口袋就剩两毛钱了,这个月还有16天,咋过呀...

2019-05-16 18:13:28 670 2

转载 pmml(模型标准化)

PMML简介PMML全称预言模型标记模型(Predictive Model Markup Language),以XML 为载体呈现数据挖掘模型。PMML 允许您在不同的应用程序之间轻松共享预测分析模型。因此,您可以在一个系统中定型一个模型,在 PMML 中对其进行表达,然后将其移动到另一个系统中,而不需考虑分析和预测过程中的具体实现细节。使得模型的部署摆脱了模型开发和产品整合的束缚。PMML...

2018-11-14 11:31:56 1006

转载 PMML模型文件在机器学习的实践经验

这种方案,在本次参加 QCon 大会时,Paypal的机器学习平台中也有所提及:PMML预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是,各种开发语言都可以使用相应的包,把模型文件转成这种中间格式,而另外一种开发语言,可以使用相应的包导入该文件做线上预测。不过,当训练和预测使用同...

2018-11-14 10:40:48 496

转载 Spark ML函数VectorAssemble

从源数据中提取特征指标数据,这是一个比较典型且通用的步骤,因为我们的原始数据集里,经常会包含一些非指标数据,如 ID,Description 等。为方便后续模型进行特征输入,需要部分列的数据转换为特征向量,并统一命名,VectorAssembler类完成这一任务。VectorAssembler是一个transformer,将多列数据转化为单列的向量列。import org.apache.spa...

2018-10-14 16:38:16 624

转载 Spark MLlib特征处理:Normalizer 正则化---原理及实战

  实战import org.apache.spark.ml.feature.Normalizerimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}object NormalizerExample {  def main(args: Array[Strin...

2018-10-14 15:22:15 521

原创 windos 安装pandas ,numpy matplotlib

pip install matplotlib -i http://pypi.douban.com/simple --trusted-host pypi.douban.compip install numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.compip install pandas -i http://p...

2018-09-11 16:44:45 107

原创 大话分布式缓存

最近要开公开课,马上公开,敬请期待

2018-08-31 16:37:31 137

原创 第五篇:spark on mersos 中mersos 解决了什么问题(spark2.3 持续更新中)

1.同一个分布式框架中,不通的计算任务需要不同的资源比如:cpu,核,内存,等,如果没有一个资源管理器,这些任务之间在资源索取上会出现竞争,导致有些任务有足够的资源,有些任务没有足够的资源,有些需要小的资源,缺分占用了大的资源,导致有些任务没有资源,而处于持续等待中,2.不通的分布式计算框架,当他们的任务运行在同一个集群中,一个良好的资源分配和隔离机制也是需要的,mersos 管理所有集群的资源,...

2018-07-05 11:04:26 144

原创 第四篇:coalesce 和repartition 在shuffle 和并行度之间的选择(spark2.3持续更新中...........)

coalesce:不需要shuffle, 最大线程数,并行度受分区数的影响def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan)} repartition: 需要进行shuffle,并行度很高def repa...

2018-07-04 17:16:56 1016

原创 第三篇:mapPartition 与map 的区别(demo 语言:java)共1000篇(spark2.3持续更新中...........)

不同点:第一:map 是推模式,mapPartition 是拉模式第二:入参:map 是一个元素,mapPartition 是一个分区的数据相同点:第一:都是进行分区的并行处理。

2018-07-04 11:40:47 736

原创 第二篇:sparkContext 做了什么(demo 语言:java)共1000篇(spark2.3持续更新中...........)

首先列下sparkContext 做了哪些事,以及市怎么做的1:sparkContext  在driver 端创建2:构造参数:sparkconf 配置文件(配置参数没提到的的变量,将用默认参数使用)  2,1 参数中几个重要的参数:是否允许多个sparkContextconfig.getBoolean("spark.driver.allowMultipleContexts", false)   ...

2018-06-29 18:21:20 574

原创 第一篇:Encoders类研究(demo 语言:java)共1000篇(spark2.3持续更新中...........)

Dataset<CityToCityLevel> resultTmp = result2.map((MapFunction<Row, CityToCityLevel>) row -> { CityToCityLevel citylevel = new CityToCityLevel(); if (row....

2018-06-17 15:19:25 670

原创 spark源码阅读笔记Spark原理(一)基本前提

分布式与集群的区别是什么?集群是个物理形态,分布式是个工作方式。集群:一堆机器,进行统一管理。集群可以运行多个分布式系统,比如同时有hadoop和spark分布式:一个程序或系统运行在不同的机器上,這些机器可以是来自同一个集群也可以是不同集群集群下编程环境的挑战有哪些?第一个是并行化: 这需要以并行的方式重写应用程序,同时这种编程模型能够处理范围广泛的的计算。然而,与其他并行平台相比,集群的第二个...

2018-05-10 18:10:32 290

原创 Sql 中Collate用法

今天查询sqlite的时候需要不区分大小写,查了下文档,需要使用collate nocase.顺便学习下collate的用法。collate在sql中是用来定义排序规则的。排序规则其实就是当比较两个字符串时,根据某种规则来确定哪个比较大,是否相等。各个数据库支持不同的排序规则。sqlite有三种build in的排序规则:BINARY二进制比较,直接使用memcmp()比较NOCASE 将26个大...

2018-04-28 14:25:13 4520

原创 maven 仓库(本地仓库,私服,远程仓库)

Maven 仓库的分类:maven的仓库只有两大类:1.本地仓库 2.远程仓库,在远程仓库中又分成了3种:2.1 中央仓库 2.2 私服 2.3 其它公共库1.本地仓库,顾名思义,就是Maven在本地存储构件的地方。注:maven的本地仓库,在安装maven后并不会创建,它是在第一次执行maven命令的时候才被创建maven本地仓库的默认位置:无论是Windows还是Linux,在用户的目录下都有...

2018-04-28 09:52:44 778

原创 hashMap为啥初始化容量为2的次幂

第一篇:       HashMap可以说是Java中最常用的集合类框架之一,是Java语言中非常典型的数据结构,我们总会在不经意间用到它,很大程度上方便了我们日常开发。在很多Java的笔试题中也会被问到,最常见的,“HashMap和HashTable有什么区别?”,这也不是三言两语能说清楚的,这种笔试题就是考察你来笔试之前有没有复习功课,随便来个快餐式的复习就能给出简单的答案。       Ha...

2018-04-27 17:20:04 2263 5

原创 任务调度 正则表达式

每 5 秒执行一次七个域从左到右依次是,秒,分,时,日,月,周几,年。。。。最后一个可选。同样是七个域与当前时间匹配的时候则执行。。。n/m 表示从n开始的每个m即,n,n+m,n+2m....* 表示任意可能的取值。比如用在秒里是0,1,2,3,...,59? 可以用在日和周几里面,表示忽略这个域,感觉和* 没有区别,但是文档里说有区别,让自己体会(你妹啊)。。。似乎是,如果只给一个域的值,另一...

2018-04-23 11:37:56 759

转载 注解@PostConstruct与@PreDestroy讲解及实例

从Java EE 5规范开始,Servlet中增加了两个影响Servlet生命周期的注解(Annotion);@PostConstruct和@PreDestroy。这两个注解被用来修饰一个非静态的void()方法 。写法有如下两种方式:@PostConstructPublic void someMethod() {}                                         ...

2018-04-19 14:14:43 105

原创 with(nolock)的用法

本文导读:要提升SQL的查询效能,一般来说大家会以建立索引(index)为第一考虑。其实除了index的建立之外,当我们在下SQL Command时,在语法中加一段WITH (NOLOCK)可以改善在线大量查询的环境中数据集被LOCK的现象藉此改善查询的效能。不过有一点千万要注意的就是,WITH (NOLOCK)的SQL SELECT有可能会造成Dirty Read。with(nolock)的介绍...

2018-04-19 10:50:58 2840

原创 intellij注解快捷键

1、一次性添加多行注释的快捷键首先选中要注释区域,然后ctrl+/ 这个是多行代码分行注释,每行一个注释符号ctrl+shift+/ 这个是多行代码注释在一个块里,只在开头和结尾有注释符号2、取消多行注释快捷键怎样添加快捷键的,用相同方法取消,如 ctrl+/ 添加注释,则ctrl+/取消注释ctrl+shift+/添加注释,则ctrl+shift+/取消注释...

2018-04-16 14:24:49 1515 2

原创 librados 简单介绍

一个Ceph客户端,通过librados直接与OSD交互,来存储和取出数据。为了与OSD交互,客户端应用必须直接调用librados,连接一个Ceph Monitor。一旦连接好以后,librados会从Monitor处取回一个Clustermap。当客户端的应用想读或者取数据的时候,它会创建一个I/O上下文并且与一个pool绑定。通过这个I/O上下文,客户端将Object的名字提供给librad...

2018-04-16 14:10:52 880

原创 日志级别的选择:Debug、Info、Warn、Error还是Fatal

软件中总免不了要使用诸如 Log4net, Log4j, Tracer 等东东来写日志,不管用什么,这些东东大多是大同小异的,一般都提供了这样5个日志级别:    × Debug    × Info    × Warn    × Error    × Fatal        一个等级比一个高,但是在具体开发中,关于应该如何选择适应的等级,却没有找到好的文章进行说明。记录一下自己的一些看法,以便日...

2018-04-16 11:50:07 866

原创 @Retention注解

@Retention注解日常开发中经常用到注解,所以也会经常使用到@Retention注解,写下这篇文章做个记。 Reteniton的作用是定义被它所注解的注解保留多久,一共有三种策略,定义在RetentionPolicy枚举中public enum RetentionPolicy { SOURCE, CLASS, RUNTIME}12345SOURCE 被编译器忽略CL...

2018-04-13 10:17:44 173

原创 幂等性

一. 断言:幂等性的数学表达:f(f(x)) = f(x)。幂等性是系统接口对外的一种承诺。幂等性指的是,使用相同参数对同一资源重复调用某个接口的结果与调用一次的结果相同。幂等性的一个实现是,使你的接口必须返回 0(成功),即使这时资源或动作已经停止并且无工作要完成。 二. 电商常见问题:2.1. 如何防范 POST 重复提交HTTP POST 操作既不是安全的,也不是幂等的(至少在HTTP规范里...

2018-04-12 11:53:31 126

原创 Linux 的nameserver-域名服务器

DNS(Domain Name System)是域名解析服务器的意思,它在互联网的作用是把域名转换成为网络可以识别的IP地址。当用户在浏览器中输入网址域名时,首先就会访问系统设置的DNS域名解析服务器(通常由ISP运营商如电信、网通提供)。如果该服务器内保存着该域名对应的IP信息,则直接返回该信息供用户访问网站。否则,就会向上级DNS逐层查找该域名的对应数据。目前国内上网用户普遍使用的是默认DNS...

2018-04-12 10:24:15 22157

原创 entity 与dto 区别

1:在调用业务方法时,DTO对象数据是由Action生成(可能是用户输入的Form数据,也可能是其他情况)。为了说的清楚简洁,请允许我举个例子:用户更新自己的注册信息,例如修改密码之类的操作。 用户提交页面-->ActionForm提取Form数据-->构造并对UserDTO赋值-->调用业务方法changePassword(UserDTOdto)把DTO对象传入业务方法--&g...

2018-04-10 14:41:35 3262

原创 java的几种对象(po,dto,dao等)

j2ee中,经常提到几种对象(object),理解他们的含义有助于我们更好的理解面向对象的设计思维。     POJO(plain old java object):普通的java对象,有别于特殊的java对象(含继承约束等)和EJB。POJO一般只有一系列的属性和相应的get、set方法。     PO(persistant object):持久化对象,有别于POJO,必须对应数据库中的实体。一...

2018-04-10 14:19:17 86

原创 cmd 下删除mysql 服务命令

进入“控制面板->管理工具->服务”查看才发现,虽然MYSQL已经卸载了,但是MYSQL服务仍然残留在系统服务里。又不想改服务名,改怎么办呢。后来上百度搜索发现,只要在CMD里输入一跳命令就可以将服务删除:sc delete mysql //这里的mysql是你要删除的服务名这样一来服务就被删除了,进入服务里查看确实没有mysql服务了,OK重新安装数据库吧。...

2018-04-10 13:28:37 23701 3

原创 mysql 5.7 zip 安装

1.下载路径https://dev.mysql.com/downloads/mysql/有账号登陆下载,没有账号:no thanks;just start my download 2.解压放到指定盘中 笔者:D:\mysql5.7 3.配置环境变量MYSQL_HOME:D:\mysql5.7在path 后面添加 ;%MYSQL_HOME%\bin 4.添加文件my.ini文件将如下代码放入my.i...

2018-04-10 13:26:56 174

原创 系统预热方案

JIT预热问题:机器重新部署时出现load高、rt高的现象; 原因:重新部署后,JVM需要一段时间识别出热点代码,这段时间内代码都是边解释边执行的,损耗性能。 方案:定制JVM,通过Beta检测出节点代码,生成预热文件,然后推送到集群其它机器,JVM加载到预热文件后将热点代码通过JIT编译成机器代码。...

2018-04-09 18:37:03 810

原创 mysql数据库中的预热

MySQL 5.0 5.1 下InnoDB的预热方法 http://dbahacker.com/mysql/mysql-5-0-5-1-%e4%b8%8binnodb%e7%9a%84%e9%a2%84%e7%83%ad%e6%96%b9%e6%b3%95 之前在做一个项目的MySQL数据库极限压测, 有部分场景是涉及到MySQL重启的,而这个项目使用的是InnoDB存储引擎。 重启完毕后,一开始...

2018-04-09 18:33:32 1479

原创 编码字符集与字符集编码

常说的字符集和编码区别,其实就是编码字符集和字符集编码的区别,其实,单单如果只是说字符集,没有任何编码的概念的话,那么字符集其实仅仅是一个简单的字符的集合,或者说是一个抽象的字符的集合,包括文字,符号等等,不参与任何存储形式,只是存在这么各种各样标准的字符的集合如果仅仅是抽象的字符集,我们是无需拿出讨论的,因为没有任何异议,通俗易懂,而常说的字符集指的编码字符集,比如常见的 unicode、asc...

2018-04-08 18:02:37 797

原创 Unicode 和 UTF-8 有何区别?

简单来说:Unicode 是「字符集」UTF-8 是「编码规则」其中:字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)广义的 Unicode 是一个标准,定义了一个字符集以及一系列的编码规则,即 Unicode 字符集和 UTF-8、UTF-16、UTF-32 等等编...

2018-04-08 17:27:31 115

原创 扩展ASCII

扩展ASCII编辑1981年IBM PC ROM256个字符的字符集,即IBM扩展字符集1985年11 Windows字符集被称作“ANSI字符集”,遵循了ANSI草案和ISO标准(ANSI/ISO8859-1-1987,简“Latin 1”。1987年4月代码页437,字符的映像代码,在MS-DOS3.3出现。扩展ASCII 字符是从128 到255(0x80-0xff)的字符。 [6] 扩展A...

2018-04-08 17:05:30 949

原创 双字节

双字节编辑双字节字符集(DBCS:double-byte character set),解决中国、日本和韩国的象形文字符和ASCII的某种兼容性。DBCS从256代码开始,就像ASCII一样。与任何行为良好的代码页一样,最初的128个代码是ASCII。然而,较高的128个代码中的某些总是跟随着第二个字节。这两个字节一起(称作首字节和跟随字节)定义一个字符,通常是一个复杂的象形文字。 ...

2018-04-08 16:46:53 454

原创 编码---ASCll 学习

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。其中:0~31及127(共33个)是控制字符或通信专用字符(其余为可显示字符),如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(...

2018-04-08 16:32:01 179

原创 mysql ----密码长度设置

首先执行命令如下:mysql> set global validate_password_policy=0;Query OK, 0 rows affected (0.00 sec)mysql> set global validate_password_length=1;Query OK, 0 rows affected (0.00 sec)mysql> GRANT ALL PRI...

2018-03-18 21:06:39 5089

转载 knn 算法2

机器学习实战笔记(Python实现)-01-K近邻算法(KNN)目录1 算法概述1.1 算法特点1.2 工作原理1.3 实例解释2 代码实现2.1 k-近邻简单分类的应用2.2 在约会网站上使用k-近邻算法2.3 手写识别系统实例3 应用 scikit-learn 库实现k近邻算法 正文--------------

2017-12-29 22:10:10 166

转载 K-近邻算法

一 . K-近邻算法(KNN)概述     最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。     KNN是通过测量不同特征

2017-12-29 22:07:09 153 1

转载 matplotlib基础学习

http://blog.csdn.net/pipisorry/article/details/37742423matplotlib介绍        matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面 中有上百

2017-12-29 15:52:11 1468

提示
确定要删除当前文章?
取消 删除