自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 EXCEL数据处理

选中数据--条件格式--突出显示--大于0 自定义格式 --填充为红色--数字 --百分比--自定义 数字右边加shang↑。选中数据--条件格式--突出显示--小于0 自定义格式 --填充为绿色--数字 --百分比--自定义 数字右边加xia↓。选中某列--开始--条件格式--突出显示--大于/小于/等于。选中数据--条件格式--管理规则--双击数据条的格式--将最小值,最大值由自动变成数字0和1。选中数字--右键--设置单元格格式--自定义--shang ↑。

2023-08-29 15:28:53 138

原创 SQL 时间计算

select from_unixtime(unix_timestamp(to_date(now()),'yyyy-mm-dd'),'yyyymmdd');--时间差(转化为小时,保留两位小数)select round((unix_timestamp('2022-02-23 01:30:30') - unix_timestamp('2022-02-22 00:00:00')) / 3600,2);--本周select weekofyear('2022-02-20');--昨天dat..

2022-03-09 15:41:53 1703

原创 机器学习面试小的知识点

1.装饰器的作用就是为已经存在的函数或对象添加额外的功能2.*args 和**kargs区别 *args是元组,**kargs是字典3.熵:对不同概率分布的刻画,衡量概率分布的 不确定性,概率越大,不确定性越大。对概率分布信息含量的衡量,求一个概率分布综合的不确定性 H(p)=-Σplogp 概率分布不确定性的期望值,值越大,概率分布不确定性越大,提供的信息越小4.伯努利分布的熵 H(p)=-plogp-(1-p)log(1-p)5.联合熵:与联合概率分布有关 对于随机变量x和y,二者...

2021-09-05 23:02:39 161

原创 机器学习十大排序

刚学习完十种排序算法,记录一下。1.冒泡排序:比较相邻两个值的大小,如果前者大于后者,交换二者位置def sort1(arr): for i in range(len(arr)-1, 0, -1): for j in range(0, i): if arr[j] > arr[j+1]: arr[j], arr[j+1] = arr[j+1], arr[j] return arr2.选择排序:每次在未排

2021-07-11 21:20:47 476 2

转载 人脸识别常用数据集大全(12/20更新)

 1.PubFig: Public Figures Face Database(哥伦比亚大学公众人物脸部数据库)The PubFig database is a large, real-world face dataset consisting of 58,797 images of 200 people collected from the internet. Unlike most other...

2018-05-18 16:53:37 5250

转载 通俗理解卷积神经网络

1 前言    2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。    本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技...

2018-04-18 16:06:16 853

转载 Tensorflow一些常用基本概念与函数(一)

1、tensorflow的基本运作为了快速的熟悉TensorFlow编程,下面从一段简单的代码开始:import tensorflow as tf #定义‘符号’变量,也称为占位符 a = tf.placeholder("float") b = tf.placeholder("float") y = tf.mul(a, b) #构造一个op节点 sess = tf.Session()...

2018-04-17 11:39:23 752

转载 预测算法——指数平滑法

 目录•1.指数平滑定义及公式•2.一次指数平滑•3二次指数平滑•4.三次指数平滑•5指数平滑系数α的确定1、指数平滑的定义及公式       产生背景:指数平滑由布朗提出、他认为时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延;他认为最近的过去态势,在某种程度上会持续的未来,所以将较大的权数放在最近的资料。       基本原理:指数平滑法是移动平均法中的一种,其特点在于给过去的...

2018-04-17 11:36:39 23582

转载 ARIMA差分自回归模型python代码

1.差分自回归模型的基本思想:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值以及现在值来预测未来值。不能对时间序列直接采取线性回归算法是因为时间序列所对应的值并不是独立的。2.要对非平稳的序列进行平稳处理,因为非平稳的序列不能进行预测。3.代码:#!/usr/bin/pythonimport nump...

2018-04-17 11:34:28 3588

转载 tensorflow中的基本概念

本文是在阅读官方文档后的一些个人理解。官方文档地址:https://www.tensorflow.org/versions/r0.12/get_started/basic_usage.html#basic-usage 关于tensor和op的理解Nodes in the graph are called ops (short for operations). An op takes zero or...

2018-04-17 11:33:05 430

转载 深度神经网络(DNN)

深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础,而要理解DNN,首先我们要理解DNN模型,下面我们就对DNN的模型与前向传播算法做一个总结。1 从感知机到神经网络 感知机的模型,它是一个有若干输入和一个输出的模型,如下图:输出和输入之间学习到一个线性关系,得到中间输出结果:接着是一个神经元激活函数:从而得到想要的结果1或者-1. ...

2018-04-17 10:28:36 5176

转载 Tensorflow学习笔记2:About Session, Graph, Operation and Tensor

简介上一篇笔记:Tensorflow学习笔记1:Get Started 我们谈到Tensorflow是基于图(Graph)的计算系统。而图的节点则是由操作(Operation)来构成的,而图的各个节点之间则是由张量(Tensor)作为边来连接在一起的。所以Tensorflow的计算过程就是一个Tensor流图。Tensorflow的图则是必须在一个Session中来计算。这篇笔记来大致介绍一下Se...

2018-04-09 17:21:51 160

转载 Tensorflow学习笔记1:Get Started

关于Tensorflow的基本介绍Tensorflow是一个基于图的计算系统,其主要应用于机器学习。从Tensorflow名字的字面意思可以拆分成两部分来理解:Tensor+flow。Tensor:中文名可以称为“张量”,其本质就是任意维度的数组。一个向量就是一个1维的Tensor,一个矩阵就是2维的Tensor。Flow:指的就是图计算中的数据流。当我们想要使用Tensorflow做什么事情的时...

2018-04-09 17:19:42 236

转载 TensorFlow基础知识3-操作

1运算操作的相关知识点一个运算操作代表了一种类型的抽象运算,比如矩阵乘法或者向量加法。 一个运算操作可以有自己的属性,但是所有属性都必须被预先设置,或者能够在创建计算图时根据上下文推断出来。 通过设置运算操作的属性可以用来支持不同的tensor元素类型,比如让向量加法支持浮点或者整数。 运算核(kernel)是一个运算操作在某个具体的硬件(比如cpu或者gpu中)的实现。 在TensorFlow中...

2018-04-09 16:18:48 209

转载 TensorFlow基础知识2-张量

1张量是什么?张量是TensorFlow管理数据的形式。在TensorFlow程序中,所有数据都是通过张量的形式来表示的。张量是TensorFlow中运算结果的引用,在张量中并没有真正保存数字,它保存的是如何得到这些数字的计算过程。 如下代码不会得到加法的结果,而是得到对结果的一个引用。import tensorflow as tfa = tf.constant([1.0, 2.0], name...

2018-04-09 16:17:30 415

转载 保序回归算法原理及Spark MLlib调用实例(Scala/Java/python)

保序回归算法介绍:       保序回归是回归算法的一种。保序回归给定一个有限的实数集合 代表观察到的响应,以及 代表未知的响应值,训练一个模型来最小化下列方程:        其中 , 为权重是正值。其结果方程称为保序回归,而且其解是唯一的。它可以被视为有顺序约束下的最小二乘法问题。实际上保序回归在拟合原始数据点时是一个单调函数。我们实现池旁者算法,它使用并行保序回归。训练数据是DataFram...

2018-04-04 10:07:34 508

转载 Spark机器学习:保序回归算法

保序回归即给定了一个无序的数字序列,通过修改其中元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有效率,直到计算出来的有效率不大于比下一个元素的有效率。MLlib使用的是PAVA(Pool Adja...

2018-04-04 10:05:51 799

转载 python+ARIMA 进行时间序列处理

1什么时候进行时间序列处理?发现进行预测时,与属性没有多大关系,只和时间有关,这时候就不能利用机器学习模型来解决,要用时间序列处理这里用的python语言,使用一种统计模型ARIMA2ARIMAAuto-Regressive Integrated Moving Averages该模型需要三个参数 p d qd一般在1和2之间选择,不做太多讨论p:number of AR terms.  AR te...

2018-04-04 10:02:50 1144

转载 python时间序列分析

什么是时间序列      时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。为什么用python  用两个字总结“情怀”,爱屋及乌,个人比较喜欢python,就用python撸了。能做时间序列的软件很多,SAS、R、SPSS、Eview...

2018-04-04 09:51:49 6294

转载 深入解析partition-hash分区

依据惯例,先看官网对hash partition的解释    Hash partitioning enables easy partitioning of data that does not lend itself to range or list partitioning. It does this with a simple syntax and is easy to implement. ...

2018-04-03 10:15:23 3718

转载 几个常用算法的适应场景及其优缺点(非常好)

本文主要回顾下几个常用算法的适应场景及其优缺点!机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cr...

2018-04-03 10:05:49 3932

转载 Spark机器学习库之数据类型——scala版本

1.本地向量        本地向量的基类是 Vector,我们提供了两个实现 DenseVector 和 SparseVector。我们建议通过 Vectors中实现的工厂方法来创建本地向量:(注意:Scala语言默认引入的是 scala.collection.immutable.Vector,为了使用MLlib的Vector,你必须显示引入org.apache.spark.mllib.lina...

2018-04-03 10:03:55 234

转载 SparkML之回归(三)保序回归

在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。------------------------------------前言背景:(1)在医学领域药物剂量反应中,随着药物剂量的增加,疗效和副作用会呈现一定趋势。比如剂量越高,疗效越高,剂量越高,毒性越大等(2)评估药物在...

2018-04-03 09:58:25 558

转载 机器学习基础 维基翻译 保序回归 随机森林 Pipeline处理 及简单的sklearn例子 分类:机器学习Sklearn

Isotonic regression(保序回归)In numerical analysis, isotonic regression (IR) involves finding a weighted least-squares fit x to Rn with weights vector w to Rn subject to a set of non-contradictory constra...

2018-04-03 09:56:55 360

转载 Spark机器学习之模型选择和超参数调整

模型选择(超参数调谐)ML中的一个重要任务是模型选择,或使用数据找到给定任务的最佳模型或参数。 这也叫调音。 可以针对个体估算器(如Logistic回归)或包括多个算法,特征化和其他步骤的整个管道完成调整。 用户可以一次调整整个流水线,而不是单独调整管道中的每个元素。MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。 这些工具需要以下项目:...

2018-04-03 09:54:41 617

转载 Spark2.x AFTSurvivalRegression算法

Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常...

2018-04-03 09:52:39 1309

转载 Spark机器学习之特征提取、选择、转换

本节介绍了处理特征的算法,大致分为以下几组:     1、提取:从“原始”数据提取特征     2、转换:缩放,转换或修改要素     3、选择:从一组较大的要素中选择一个子集     4、局部敏感哈希(LSH):这类算法将特征变换的方面与其他算法相结合。1、特征提取1.1 TF-IDF(term frequency–inverse document frequency/词频-逆文本/文档频率) ...

2018-04-03 09:45:16 1013

转载 Spark ML机器学习

Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中.spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库.相对于RDD, DataFrame拥有更丰富的操作API, 可以进行更灵活的操作. 目前, spark.mllib已经进入维护状态, 不再添加新特性.本文将重点介绍pyspark.ml, 测试环境为Spa...

2018-04-03 09:41:25 1314 1

转载 Sql中判断"库、表、列"是否存在

--判断数据库是否存在 IF EXISTS (SELECT * FROM MASTER.sys.sysdatabases WHERE NAME = '库名')    PRINT 'exists ' else     PRINT 'not exists'-- 判断要创建的表名是否存在 IF EXISTS (Select * From sysObjects Where Name ='表名' And T...

2018-04-03 09:38:17 835

转载 动态SQL

使用动态SQL是在编写PL/SQL过程时经常使用的方法之一。很多情况下,比如根据业务的需要,如果输入不同查询条件,则生成不同的执行SQL查询语句,对于这种情况需要使用动态SQL来完成。再比如,对于分页的情况,对于不同的表,必定存在不同的字段,因此使用静态SQL则只能针对某几个特定的表来形成分页。而使用动态的SQL,则可以对不同的表,不同的字段进行不同的分页。这些情况的处理通常都是用动态SQL来完成...

2018-04-02 10:05:42 163

转载 Spark机器学习:KMenas算法

KMenas算法比较简单,不详细介绍了,直接上代码。import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.clusterin...

2018-04-02 10:00:53 363

转载 Oracle表分区分为四种:范围分区,散列分区,列表分区和复合分区

一:范围分区就是根据数据库表中某一字段的值的范围来划分分区,例如:Sql代码  create table graderecord    (    sno varchar2(10),    sname varchar2(20),    dormitory varchar2(3),    grade int  )  partition by range(grade)  (    partition b...

2018-04-02 09:57:21 13140 2

转载 机器学习十大经典算法

1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是数据挖掘中一个普通的方法...

2018-04-02 09:54:24 675

转载 深入浅出K-Means算法

摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可...

2018-04-02 09:52:22 137

转载 Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequ

【背景】问题参见:python2.7 urllib2 抓取新浪乱码中的:报错的异常是   UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence此问题,还是很具有代表性的,此处,专门整理如下:【Python中如何处理UnicodeDecodeError和Unicod...

2018-04-02 09:47:43 360

转载 二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(一)

Tokenizer(分词器)算法介绍:        Tokenization将文本划分为独立个体(通常为单词)。下面的例子展示了如何把句子划分为单词。        RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者,用户可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所...

2018-04-02 09:43:57 231

转载 二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(二)

VectorIndexer算法介绍:        VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的,并且将原始值转换为类别指标。它的处理流程如下:1.获得一个向量类型的输入以及maxCategories参数。2.基于原始数值识别哪些特征需要被类别化,其中最多maxCategories需要被类别化。3.对于每一个类别特征计算0-based类别指标。4....

2018-04-02 09:41:41 251

转载 Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)

     本文中,我们介绍机器学习管道的概念。机器学习管道提供一系列基于数据框的高级的接口来帮助用户建立和调试实际的机器学习管道。管道里的主要概念       MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流,管道的概念源于scikit-learn项目。       1.数据框:机器学习接口使用来自Spark SQL的数据框形式数据作为数据集,它可以处理多种数据类型。比如,一个数据框...

2018-04-02 09:34:20 365

转载 Spark2 生存分析Survival regression

  在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。  当在具有常量非零列的数据集上匹配AFTSurvivalRegressionModel而没有截距时,Spark MLlib为常量非零...

2018-04-02 09:32:07 1064

转载 ARIMA模型拖尾截尾问题

什么是截尾和拖尾?(1)p阶自回归模型 AR(P) AR(p)模型的偏自相关函数PACF在p阶之后应为零,称其具有截尾性; AR(p)模型的自相关函数ACF不能在某一步之后为零(截尾),而是按指数衰减(或成正弦波形式),称其具有拖尾性。(2)q阶移动平均模型 MA(q) MA(q)模型的自相关函数ACF在q阶之后应为零,称其具有截尾性; MA(q)模型的偏自相关函数PACF不能在某一步之后为零(截...

2018-03-28 11:22:44 9763

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除