2017年06月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 [linux]解析crontab

linux提供了一个非常强大而且又比较好用的命令 [crontab]crontab是Unix和Linux用于设置周期性被执行的指令，是互联网很常用的技术，很多任务都会设置在crontab循环执行，如果我要linux定时去执行某个脚本或者定时某个http请求,可以用crontab来实现如下我用cron去定时发送一个http请求默认情况下，任何使用者只要不被列

2017-06-27 10:08:31 607

转载 scala基础---->序列trait：Seq、IndexedSeq及LinearSeq

Seq trait用于表示序列。所谓序列，指的是一类具有一定长度的可迭代访问的对象，其中每个元素均带有一个从0开始计数的固定索引位置。序列的操作有以下几种，如下表所示：索引和长度的操作 apply、isDefinedAt、length、indices，及lengthCompare。序列的apply操作用于索引访问；因此，Seq[T]类型的序列也是一个以单个Int（索引下标）为参

2017-06-22 14:01:47 1186

转载 jobserver 具体参数设置

Job Server概述Spark-jobserver 提供了一个 RESTful 接口来提交和管理 spark 的 jobs、jars 和 job contexts。此项目包含了完整的 Spark job server 的项目，包括单元测试和项目部署脚本。“Spark as Service”：针对 job 和 contexts 的各个方面提供了 REST 风格的 api 接口进行管理

2017-06-21 19:25:35 2119

转载安装与使用 Spark-jobServer

Spark-jobserver 提供了一个 RESTful 接口来提交和管理 spark 的 jobs、jars 和 job contexts。这个项目包含了完整的 Spark job server 的项目，包括单元测试和项目部署脚本。特性“Spark as Service”：针对 job 和 contexts 的各个方面提供了 REST 风格的 api 接口进行管理支

2017-06-21 17:13:08 2911

转载使用sklearn做单机特征工程

作者：城东链接：https://www.zhihu.com/question/29316149/answer/110159647来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。使用sklearn做单机特征工程目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法

2017-06-20 17:22:32 312

转载 ###########有用**********如何选择优化器 optimizer

在很多机器学习和深度学习的应用中，我们发现用的最多的优化器是 Adam，为什么呢？下面是 TensorFlow 中的优化器， https://www.tensorflow.org/api_guides/python/train 在 keras 中也有 SGD，RMSprop，Adagrad，Adadelta，Adam 等： https://keras.io/opti

2017-06-20 17:09:07 650

转载怎样将结构完全一样的两个表的内容合并到一个表中，SQL语句

select * into 新表名 from (select * from T1 union all select * from T2) 这个语句可以实现将合并的数据追加到一个新表中。不合并重复数据 select * from T1 union all select * from T2 合并重复数据 select * from T1 union selec

2017-06-15 14:43:38 22377

转载 Hive修改表名

Hive修改表Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性，我们希望在一个表中修改以下语法。ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] colu

2017-06-14 16:10:41 75230 1

转载实时流计算Spark Streaming原理介绍

1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算

2017-06-14 15:41:29 592

转载 GAN学习指南：从原理入门到制作生成Demo，总共分几步？

生成式对抗网络（GAN）是近年来大热的深度学习模型。最近正好有空看了这方面的一些论文，跑了一个GAN的代码，于是写了这篇文章来介绍一下GAN。本文主要分为三个部分：介绍原始的GAN的原理同样非常重要的DCGAN的原理如何在Tensorflow跑DCGAN的代码，生成如题图所示的动漫头像，附送数据集哦 :-)一、GAN原理介绍说到GAN

2017-06-14 14:11:56 1058

转载卷积神经网络基础卷积层和池化层学习#####好好好

卷积神经网络（CNN）由输入层、卷积层、激活函数、池化层、全连接层组成，即INPUT-CONV-RELU-POOL-FC(1)卷积层：用它来进行特征提取，如下：输入图像是32*32*3，3是它的深度（即R、G、B），卷积层是一个5*5*3的filter(感受野)，这里注意：感受野的深度必须和输入图像的深度相同。通过一个filter与输入图像的卷积可以得到一个28*28*1的特征图，上图

2017-06-14 12:00:45 652

转载 Spark之分层抽样

Spark中组件Mllib的学习之基础概念篇1解释分层抽样的概念就不讲了，具体的操作： RDD有个操作可以直接进行抽样：sampleByKey和sample等，这里主要介绍这两个（1）将字符串长度为2划分为层1和层2，对层1和层2按不同的概率进行抽样数据aabbccddeeaaabbbcccdddeee比如： val fractions: M

2017-06-13 10:19:07 7288

转载理解并设计rest/restful风格接口

网络应用程序，分为前端和后端两个部分。当前的发展趋势，就是前端设备层出不穷（手机、平板、桌面电脑、其他专用设备......）。因此，必须有一种统一的机制，方便不同的前端设备与后端进行通信。这导致API构架的流行，甚至出现"API First"的设计思想。RESTful API是目前比较成熟的一套互联网应用程序的API设计理论。我以前写过一篇《理解RESTful架构》，探讨如何理解这个概

2017-06-09 11:44:37 469

转载人人都能用Python写出LSTM-RNN的代码！[你的神经网络学习最佳起步]

---1. 概要我的最佳学习法就是通过玩具代码，一边调试一边学习理论。这篇博客通过一个非常简单的python玩具代码来讲解循环神经网络。那么依旧是废话少说，放‘码’过来！[python] view plain copy import copy, numpy as np np.random.seed(0) # compute sigmoid

2017-06-07 15:51:15 849

转载赵哲焕 Clock work RNN(CW-RNN)

CW-RNN是ICML2014上提出的一篇论文，与LSTM模型目的是相同的，就是为了解决经典的SRN对于长距离信息丢失的问题。但是与LSTM（基于三个门进行过滤和调节）的思想完全不同，CW-RNN利用的思想非常简单。下面介绍一下CW-RNN。提出我们要解决的问题：我们要做的事情是序列标注问题，输入时一个序列，输出是对应的标签序列。如下：Input = (X1, X2,

2017-06-07 11:39:56 4985 4

转载 ARIMA模型

ARIMA模型自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)目录[隐藏]1什么是ARIMA模型?2ARIMA模型的基本思想3ARIMA模型预测的基本程序4相关链接4.1各国的box-jenkins模型名称5ARlMA模型案例分析5.

2017-06-07 10:16:09 27734 1

转载从RNN到LSTM

大纲如下：1.RNN2.LSTM3.GRN4.Attention Model5.应用6.探讨与思考

2017-06-07 10:06:19 954

转载循环神经网络(RNN, Recurrent Neural Networks)介绍

循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考：http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/，在这篇文章中，加入了一些新的内容与一些自己的理解。循环神经网络(Recurrent Neu

2017-06-07 09:43:39 826

转载 #########什么是用户画像？金融行业大数据用户画像实践#####好文章

文|鲍忠铁（微信号：daxiakanke），TalkingData首席金融行业布道师，上海大数据产业联盟金融行业专家，金融行业大数据实践推动者。鲍忠铁同时也是36大数据的专栏作者。进入鲍忠铁先生在36大数据的专栏>>>进入移动互联网时代之后，金融业务地域限制被打破。金融企业没有固定业务区域，金融服务面对所有用户是平的。金融消费者逐渐年轻化，80、90后成为客户主力，他们的消费意识和金融

2017-06-06 15:23:44 1321

转载如何安装Spark & TensorflowOnSpark

对的，你没看错，这是我的一条龙服务，我在入坑填坑无数之后终于成功搭建起了Spark和TensorflowOnSpark的运行环境，并成功运行了示例程序（大概就是手写识别的训练和识别吧）。安装JAVA和Hadoop这里提供一个很好的教程，就是又好用，又好看的教程。 http://www.powerxing.com/install-hadoop/按照这个教程来，基本上就没有太多坑地

2017-06-06 14:52:07 2343

近几年，信息时代的快速发展产生了海量数据，诞生了无数前沿的大数据技术与应用。在当今大数据时代的产业界，商业决策日益基于数据的分析作出。当数据膨胀到一定规模时，基于机器学习对海量复杂数据的分析更能产生较好的价值，而深度学习在大数据场景下更能揭示数据内部的逻辑关系。本文就以大数据作为场景，通过自底向上的教程详述在大数据架构体系中如何应用深度学习这一技术。大数据架构中采用的是hadoop系统以及Kerb

2017-06-06 14:16:19 1268

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势（详细）

摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？数据倾斜指的

2017-06-06 11:40:59 1689

转载 DTW（Dynamic Time Warping / 动态时间归整） python实现

[python] view plain copyfrom math import * import matplotlib.pyplot as plt import numpy def print_matrix(mat) : print '[matrix] width : %d height : %d' % (len(mat[0

2017-06-02 16:46:34 5188

转载数据倾斜的两个解决方案

解决方案六：采样倾斜key并分拆join操作方案适用场景：两个RDD/Hive表进行join的时候，如果数据量都比较大，无法采用“解决方案五”，那么此时可以看一下两个RDD/Hive表中的key分布情况。如果出现数据倾斜，是因为其中某一个RDD/Hive表中的少数几个key的数据量过大，而另一个RDD/Hive表中的所有key都分布比较均匀，那么采用这个解决方案是比较合适的。方案实

2017-06-02 13:53:22 4516

转载 Spark性能优化：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占

2017-06-01 14:07:34 442

知网Hownet情感词典.zip

该资料包含知网情感相关的词典，分为中英文单词表，每种都梳理完毕，并整理成单独文件，非常方便，有需要的话，请下载使用。

2020-05-09

mnist.pkl.gz数据文件

mnist.pkl.gz数据文件直接下载拷贝到keras的dataset下方便许多

2017-01-10

近红外猕猴桃测试分类数据

仅供分类算法测试用数据.数据内容为相隔两天的软的猕猴桃的近红外测试数据，标签为-1 和1，可以作为一个不同时间的猕猴桃的分类数据

2016-10-24

ROC曲线源代码包

非常齐全的各类函数包，想画什么样的ROC曲线，都有相应代码，可以自己学习，也可以二次开发进行定制。

2015-10-13

基于tiny210的SD卡MP3播放器系统代码

一个小小的例程，如题所述，可以完美运行，需要的同学下下来学习下~

2015-07-17

机器学习实战源代码

这是机器学习实战，树上的全部例子代码，需要的同学可以下下来看看，帮助学习。

2015-07-17

基于FPGA的视频图像采集系统的设计与实现

基于FPGA的视频图像采集系统的设计与实现，提出了可行的基于FPGA的采集系统的设计和实现方法。

2013-05-06

多人物识别

为多人物检测提出了一种研究方法，提出了算法设计等

2013-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

木东的博客

转载 [linux]解析crontab

转载 scala基础---->序列trait：Seq、IndexedSeq及LinearSeq

转载 jobserver 具体参数设置

转载安装与使用 Spark-jobServer

转载使用sklearn做单机特征工程

转载 ###########有用**********如何选择优化器 optimizer

转载怎样将结构完全一样的两个表的内容合并到一个表中，SQL语句

转载 Hive修改表名

转载实时流计算Spark Streaming原理介绍

转载 GAN学习指南：从原理入门到制作生成Demo，总共分几步？

转载卷积神经网络基础卷积层和池化层学习#####好好好

转载 Spark之分层抽样

转载理解并设计rest/restful风格接口

转载人人都能用Python写出LSTM-RNN的代码！[你的神经网络学习最佳起步]

转载赵哲焕 Clock work RNN(CW-RNN)

转载 ARIMA模型

转载从RNN到LSTM

转载循环神经网络(RNN, Recurrent Neural Networks)介绍

转载 #########什么是用户画像？金融行业大数据用户画像实践#####好文章

转载如何安装Spark & TensorflowOnSpark

转载大数据下基于Tensorflow框架的深度学习示例教程

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势（详细）

转载 DTW（Dynamic Time Warping / 动态时间归整） python实现

转载数据倾斜的两个解决方案

转载 Spark性能优化：shuffle调优

知网Hownet情感词典.zip

mnist.pkl.gz数据文件

近红外猕猴桃测试分类数据

ROC曲线源代码包

基于tiny210的SD卡MP3播放器系统代码

机器学习实战源代码

基于FPGA的视频图像采集系统的设计与实现

多人物识别

空空如也

知网Hownet情感词典.zip

mnist.pkl.gz数据文件

近红外猕猴桃测试分类数据

ROC曲线 源代码包

基于tiny210的SD卡MP3播放器系统代码

机器学习实战源代码

基于FPGA的视频图像采集系统的设计与实现

多人物识别

空空如也

ROC曲线源代码包