自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_41512727的博客

在机器学习方向,不断积累...

  • 博客(113)
  • 收藏
  • 关注

原创 时间序列(time serie)分析系列之Prophet6

文章目录1.Prophet简介2.Prophet流程3.学习资料1.Prophet简介Prophet是Facebook开源的一个关于时间序列的框架。Prophet功能完善,既可以做未来预测,也可以填补缺失值,并且可以检测异常。Prophet的整体框架,整个过程分为四部分:Modeling、Forecast Evaluation、Surface Problems以及Visually Inspe...

2019-01-14 12:14:20 1161

原创 时间序列(time serie)分析系列之ARIMA预测3.1

文章目录1.ARIMA简介2.ARIMA示例3.保存模型4.总结1.ARIMA简介2.ARIMA示例3.保存模型如何保存ARIMA模型(修复bug)4.总结

2019-01-13 14:27:24 1773

原创 时间序列(time serie)分析系列之时间序列特征(feature)7

文章目录1.问题描述2.特征构建2.1时间特征2.2平移特征2.3窗口特征3.总结1.问题描述时间序列数据作为一种典型的数据,常存在于各行各业。比如客流、车流、销量、KPI指标等等。如何对时序数据加以利用,比如做未来预测,交通拥堵分类等问题。在采用机器学习算法之前,首先需要我们构建特征。因为大多数时序数据都是单变量或者维度特别少,所以特征的构建就比较重要。笔者总结了几种特征,供大家参考,有...

2019-01-13 11:49:20 18028

原创 时间序列(time serie)分析系列之平均法(移动/指数)2

平均法移动平均法指数平均法

2019-01-12 21:50:28 3892

原创 时间序列(time serie)分析系列之简介1

时间序列数据(time series data)是在不同时间上收集到的数据,用于描述现象随时间变化的情况。时间序列是一种典型的数据,具有随时间变化的特征。在大多数场景中,都能见到的一种数据类型。如客流数据,股票数据,销售额数据,网络日志,某些KPI指标等等内容。

2019-01-12 17:21:57 2282 1

原创 时间序列(time serie)分析系列之线性回归or随机森林4

时间序列数据是一种典型的数据,时间序列预测方法比较多。比如ARIMA模型、Prophet模型、指数平均法、滑动平均法等等。 本文采用机器学习算法,如线性回归、随机森林等,完成时间序列预测,预测效果也比较好。

2019-01-03 17:20:46 13004 11

原创 时间序列(time serie)分析系列之LSTM(多步)预测5

文章目录LSTM原理数据集代码结果参考文献LSTM原理LSTM的原理,这里不做多余描述,具体可以参照这几个博客,介绍的很好。blog1:Understanding LSTM Networksblog2:Long Short-Term Memory Units (LSTMs)blog3:LSTM详解 反向传播公式推导blog4:LSTM详解数据集数据为单变量数据,上图显示的是,如...

2018-12-26 22:52:22 10597 10

原创 时间序列(time serie)分析系列之SARIMAX预测与异常诊断3

 目录1.简介2.预测流程1.读取数据 2.判断数据稳定性3.分解模型 4.建立模型5.模型诊断 6.模型预测7.未来预测与诊断异常1.简介ARIMA是一种常见的时间序列处理模型。但在处理季节性影响时,我们利用季节性预测模型SARIMAX,表示为ARIMA(p,d,q)(P,D,Q)s 。 这里, (p, d, q)是ARIMA的非季节性参数,而(P, ...

2018-10-10 17:11:20 9041 14

原创 样本不均时,如何处理(PU learning/OneClassSvm/AutoEncoder)

在样本不均匀,只有正样本和大量未标记样本,或者只有少量负样本时,该如何做分类研究。调研了几种方法,主要包括OneClassSvm, AutoEncoder, PU Learning

2019-10-10 19:45:47 1533

原创 pycharm利用pyspark远程连接spark集群

文章目录0 背景1 方法2 测试3 参考0 背景由于工作需要,利用spark完成机器学习。因此需要对spark集群进行操作。所以利用pycharm和pyspark远程连接spark集群。这里记录下遇到的问题及方法。主要是参照下面的文献完成相应的内容,但是具体问题要具体分析。1 方法1.1 软件配置spark2.3.3, hadoop2.6, python31.2 spark配置Sp...

2019-08-29 10:29:03 8783

原创 keras中关于输入尺寸LSTM的stateful,return_sequence的问题

补充:return_sequence,return_state都是针对一个时间切片(步长)内的h和c状态,而stateful是针对不同的batch之间的。多层LSTM需要设置return_sequence = True,后面再设置return_sequence=False.最近在学习使用keras搭建LSTM的时候,遇到了一些不明白的地方。有些搞懂了,有些还没有搞懂。现在记下来,因为很快就会忘记...

2019-08-15 14:51:20 790

原创 spark中RDD与DataFrame的转换

文章目录转换转换rdd > dataframe:rdd.toDF()spark.createDataFrame()dataframe > rdd:df.rdd

2019-05-09 14:09:59 1026

原创 一个简单的Spark ML的例子

文章目录1-配置2-流程3-注意4-project1-配置首先,我在虚拟上,搭建了一个单机spark2.4.1(无hadoop)。然后在本地的IDEA中远程运行spark,操作一个svm的小例子。sbt文件:name := "spark_ml_examples"version := "0.1"scalaVersion := "2.11.12"libraryDependencies +...

2019-05-05 17:33:22 4366

原创 IDEA中scala实现word_count,sbt打jar包,并发送linux中spark运行(sbt打包详细)

文章目录0-背景1-spark安装2-IDEA开发3-参考0-背景最近因为业务需求,开始鼓捣下kafka和spark。因为也是第一次做这方面的内容,而且没玩过java和scala。所以这个word count的例子,鼓捣了近两天才出结果。整个流程如下:首先搭建虚拟机,安装ubuntu。然后在linux中安装spark。最后再本地的IDEA中开发scala,并打包jar包,发送到spark系统...

2019-04-24 14:57:57 1523 2

转载 目标检测之Harris角点

文章目录1-角点2-检测原理3-参考资料1-角点在传统的目标检测中,有很多描述图像的特征,比如Harris角点。在opencv中有实现。检测效果:角点具有以下特征:轮廓之间的交点;同一场景下,即使视角变化,通常具备稳定性质的特征;该点附近区域的像素点,无论在梯度方向还是梯度赋值上都有较大差别2-检测原理Harris最早1988年在这篇文章中被提出A Combined Cor...

2019-04-18 16:29:33 433

原创 目标检测之交并比IOU与非极大值抑制NMS

文章目录1-交并比2-非极大值抑制1-交并比在目标检测中,如何评价目标检测结果的质量,可以采用交并比的大小进行衡量。图中:紫色表示实际边界框;红色表示算法检测出的边界框;绿色表示两者的并集;黄色表示两者的交集;交并比:交集-黄色/并集-绿色一般约定检测任务中,IOU大于等于0.5,即检测结果可以接受。其中阈值可以自行设定。IOU不仅在评价检测质量中可以使用,在非极大值抑制N...

2019-04-14 18:22:03 1734 1

原创 目标检测之SIFT

文章目录1-简介2-xxx1-简介2-xxx先放目录,后面补充。

2019-04-14 17:25:34 683 2

原创 利用python对kafka进行消息生产和消息消费

文章目录0-背景1-kafka-python2-流程3-总结0-背景上一篇文章中,我们介绍了如何安装kafka。这篇文章,我们讲下,如何用python操作kafka。1-kafka-python首先,我们在上篇文章的环境中,安装了ananconda(找了其他目录安装即可)。安装的教程可以去网络百度,先下载然后再安装,比较简单。需要安装kafka-python,以便python链接kafk...

2019-04-12 18:06:00 5073

原创 关于kafka的搭建及问题

文章目录0-背景1-kafka搭建2-总结3-参考文献0-背景最近业务需要搭建一套实时故障诊断系统。数据从传感器来,然后通过http流或者websocket等协议推送,然后生产到kafka,最后使用机器学习模型,进行消费。整个流程是这样子的,里面一些具体的内容,还不不断的摸索和完善。这两天,搭建了一个单机版的kafka,然后利用python的kafka API跑了个简单的例子。下面先说下...

2019-04-12 17:47:16 288

转载 目标检测之HOG学习

文章目录0-背景1-简介2-流程3- 源码4-参考0-背景目标检测与识别是当下非常热门的研究方向之一。在深度学习火爆发展之前,有一些传统的图像处理方法,也取得了不错的效果。其中HOG方向梯度直方图(Histogram of Oriented Gradient)是比较成功的特征。1-简介HOG特征是一种在计算机视觉和图像处理中用于物体检测的特征描述子。HOG是基于像素点的梯度来计算直方图的,...

2019-04-11 19:04:14 394

翻译 dlib人脸轮廓

根据官网案例,进行学习。import osimport dlibimport globpredictor_path = "shape_predictor_68_face_landmarks.dat"faces_folder_path = "./data"detector = dlib.get_frontal_face_detector()predictor = dlib.shap...

2019-03-28 09:37:12 535

原创 dlib人脸识别

文章目录dlib的安装(windows)dlib人脸识别例子参考链接dlib的安装(windows)安装cmake,在官网下载最新的zar,然后解压,添加环境变量,即可。安装dlib,pip install dlib注意:要先安装好anaconda 和 VS2017dlib人脸识别例子import dlibcnn_face_detector = dlib.cnn_face_det...

2019-03-27 14:18:05 1360

原创 时间序列及异常检测综述(资料)

文章目录1. 背景2. 时间序列预测方法3. ARIMA3.1 ARIMA模型预测的流程3.2 学习资料4. Prophet4.1 Prophet流程4.2 Prophet注意4.3 学习资料5. 其他时序方法6. 异常诊断相关方法7. 异常检测参考资料1. 背景时间序列数据(time series data)是在不同时间上收集到的数据,用于描述现象随时间变化的情况。时间序列是一种典型的数据,...

2019-03-06 17:11:28 10429 6

转载 人脸识别系列---opencv01

刚刚根据别人的博客,尝试了下opencv,效果不是很理想。一张图片中,如果有侧脸、斜脸,都识别不出来。#!/usr/bin/env python# encoding: utf-8'''@file: face_recognition_opencv1.py@time: 2019/2/28 14:24@desc: opencv01'''import cv2img = cv2.imrea...

2019-03-04 16:44:23 171

原创 关于keras搭建模型的一些问题

文章目录1. 输入数据维度2. 输入/输出数据尺寸3. stateful的设置4. 参考链接最近在学习使用keras搭建LSTM的时候,遇到了一些不明白的地方。有些搞懂了,有些还没有搞懂。现在记下来,因为很快就会忘记!-_-!。具体的LSTM的原理,我这里不赘述了。给一些很好的参考链接。LSTM公认圣经,中文翻译版1. 输入数据维度我们知道RNN、LSTM适应于时序数据。我们需要按照构造...

2019-01-29 18:24:37 582

转载 LR与SVM的联系与区别

文章目录一、LR与SVM的相同点1. LR与SVM都是分类算法2. LR与SVM都是有监督学习算法3. LR与SVM都是判别模型4. LR与SVM都是线性模型二、LR与SVM的不同点1. 损失函数不同2. 线性SVM是距离度量,需要normalization3. SVM自带正则化,LR必须额外添加4. SVM有核函数,LR一般不用核函数三、参考LR与SVM都是机器学习中经常会用到的算法。现在想深...

2019-01-28 12:25:25 514

原创 机器学习调参之贝叶斯优化

文章目录一、简介二、理论三、hyperopt四、bayes_opt五、参考一、简介贝叶斯优化用于机器学习调参,主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说,就是考虑了上一次参数的信息,从而更好的调整当前的参数。与常规的网格搜索或者随机搜索的区...

2019-01-22 21:01:59 3152

转载 数据结构01

#1二分查找def find_value(_list, goal): first = 0 end = len(_list)-1 while first <= end: mid = (first + end)//2 if _list[mid] > goal: end = mid - 1 e...

2019-01-22 20:45:02 110

转载 使用keras建立checkpoint

文章目录1.简介2.示例3.参考1.简介checkpoint是一种系统状态的快照方法,可以直接使用。checkpoint是模型的权重,可以用来预测,也可以用来继续训练。keras中的回调函数callbacks提供了checkpoint功能。Tensorboard是一种训练可视化的操作。在keras的回调函数中也有相应的功能。下面这个示例,将两种的情况都包涵在内了。2.示例#!/usr...

2019-01-19 17:21:26 4446

转载 小波变换学习—pywavelets

最近正在学习音频方面的项目,涉及到了小波变换的内容。pywavelets是其中一个比较常见的小波模块。复现了下其他博客如下:小波变换-python pywaveletsnp.piecewise是根据条件筛选,然后执行例如lambda/函数等操作。参考链接np.piecewise#!/usr/bin/env python# encoding: utf-8import numpy as np...

2019-01-18 17:41:42 2188

原创 利用keras搭建CNN完成图片分类

文章目录一、简介二、流程1.数据处理2.神经网络搭建3.训练三、参考一、简介本文旨在通过一些简单的案例,学习如何通过keras搭建CNN。从数据读取,数据处理,神经网络搭建,模型训练等。本文也是参考其他博主的文章基础上做了些小修改学习的,感谢其他博主的分享。具体的CNN的原理,以及keras的原理,这里就不啰嗦了。最后会提供一些参考博客,供大家学习。代码的github地址:traffic二...

2019-01-09 17:14:24 6197 10

原创 grouby分组后,如何变成无空缺的dataframe

df = df.groupby(["day","hour","minute"]).mean()分组后,显示如下:           df.reset_index(inplace=True)reset_index后,结果如下:小技巧         

2018-12-28 21:46:17 413

原创 python对hdfs/spark读写操作(hdfs/pyspark)

利用python将数据保存到hadoop的hdfs目录下,利用spark读取hdfs目录下内容,然后做sql统计。

2018-12-19 18:36:05 17171 1

原创 利用TensorFlow搭建RNN

给大家分享一个简单的学习例子。通过TensorFlow搭建RNN,用于手写字体识别。具体参照书籍:Hands-On.Machine.Learning.with.Scikit-Learn.and.TensorFlowfrom tensorflow.contrib.layers import fully_connectedimport tensorflow as tfn_steps = 28...

2018-12-06 18:13:44 599

原创 爬取天气信息

天气查询:http://www.tianqihoubao.com/参考:https://blog.csdn.net/qq_38440882/article/details/82829865文章是保存到数据库,可以参考原文。根据上面的内容,做了修改保存为DataFrame,保存为CSV,并且增加了温度上下限,可以参考下文。from bs4 import BeautifulSoupim...

2018-11-30 17:12:11 490

原创 python单元测试及TXT/HTML/XML报告(非常全)

python单元测试教程(全)Python中自带的单元测试框架是unittest模块,用它来做单元测试。unittest中:TestCase 测试用例TestSuite 多个测试用例集合TestLoader加载TestCase到TestSuite中TestRunner是来执行测试用例的可以直接使用unittest进行测试,但没有很好的报告,也可以使用其他补充包,如HtmlTestR...

2018-11-29 17:06:34 2356 1

原创 利用TensorFlow搭建CNN

通过相关资料,学习使用TensorFlow搭建CNN的流程。整的提出分为以下几个步骤:设置网络参数—设置输入占位符变量—设置网络结构—优化损失函数—设置训练参数—训练网络—输出准确度等#!/usr/bin/env python# encoding: utf-8'''@author: Great@file: CNN_practice.py@time: 2018/11/26 17:50...

2018-11-26 21:09:52 1244

原创 利用TensorFlow搭建神经网络并tensorbord可视化

本示例,主要有两个目的,第一个是学习搭建DNN网络,第二个是学习tensorbord工具。github:https://github.com/Great1414/TensorFlow_DNN/blob/master/DNN_practice.pyimport tensorflow as tffrom sklearn.datasets import load_bostonfrom sklea...

2018-11-22 16:01:46 374

原创 利用TensorFlow搭建DNN

利用TensorFlow搭建DNN通过相关资料,学习使用TensorFlow搭建DNN的流程。整的提出分为以下几个步骤。文章目录利用TensorFlow搭建DNN设置网络参数传入占位符神经网络的层次设置层次结构损失计算梯度下降优化准确度计算训练结果设置网络参数传入占位符神经网络的层次设置层次结构损失计算梯度下降优化准确度计算训练结果...

2018-11-19 16:26:17 7337 1

转载 Spark学习系列之SparkContext

1. SparkContext类是Spark的关键类,代码在这里:./core/src/main/scala/org/apache/spark/SparkContext.scala。SparkContext是Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。从本质上来说,SparkContext是Spark的对外接口,负责向调用这提供Spark的各种功能。它的作用是一个容器。...

2018-11-12 11:09:49 246

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除