2017年11月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 mysql索引总结----mysql 索引类型以及创建

文章归属：http://feiyan.info/16.html，我想自己去写了，但是发现此君总结的非常详细。直接搬过来了关于MySQL索引的好处，如果正确合理设计并且使用索引的MySQL是一辆兰博基尼的话，那么没有设计和使用索引的MySQL就是一个人力三轮车。对于没有索引的表，单表查询可能几十万数据就是瓶颈，而通常大型网站单日就可能会产生几十万甚至几百万的数据，没有索引查询会变的非常缓

2017-11-30 17:33:18 269

转载十分钟带你理解Kubernetes核心概念

本文将会简单介绍Kubernetes的核心概念。因为这些定义可以在Kubernetes的文档中找到，所以文章也会避免用大段的枯燥的文字介绍。相反，我们会使用一些图表（其中一些是动画）和示例来解释这些概念。我们发现一些概念（比如Service）如果没有图表的辅助就很难全面地理解。在合适的地方我们也会提供Kubernetes文档的链接以便读者深入学习。这就开始吧。什么是Kubernetes

2017-11-29 17:47:39 274

转载 python——操作Redis

在使用django的websocket的时候，发现web请求和其他当前的django进程的内存是不共享的，猜测django的机制可能是每来一个web请求，就开启一个进程去与web进行交互，一次来达到利用cpu多核的目的。但是这样一来，内存共享的问题就变成了焦点。这周试了一下redis，果然很好用。　　redis是一个key-value存储系统。和Memcached类似，它支持存储的valu

2017-11-29 16:58:11 1488

转载 #####好######Python标准库系列之Redis模块

Python标准库系列之Redis模块What is redis?Redis is an open source (BSD licensed), in-memory data structure store, used as database, cache and message broker. It supports data structures such as str

2017-11-29 16:52:53 943

转载 #########好####### pyspark-Spark Streaming编程指南

参考：1、http://spark.apache.org/docs/latest/streaming-programming-guide.html2、https://github.com/apache/spark/tree/v2.2.0Spark Streaming编程指南OverviewA Quick ExampleBasic Concepts

2017-11-29 14:12:34 1298

转载 spark streaming + kafka +python(编程)初探

一、环境部署hadoop集群2.7.1zookeerper集群kafka集群：kafka_2.11-0.10.0.0spark集群：spark-2.0.1-bin-hadoop2.7.tgz环境搭建可参考我前面几篇文章。不再赘述三台机器：master，slave1,slave2二、启动集群环境1.启动hadoop集群start-all.sh2.启动spark集群start-mas

2017-11-29 14:11:00 5684

转载 flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算 + Spark 基于pyspark下的实时日志分析

鉴于实在是比较少python相关是spark streaming的例子，对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序，强烈建议使用scala，python写日常的spark批处理程序还好这个例子为一个简单的收集hive的元数据日志，监控各个hive客户端访问表的统计。例子简单，但是涉及到不同的组件的应用，结构图(不含红色方框)如下这也是L

2017-11-29 14:03:21 2152

转载使用 Kafka 和 Spark Streaming 构建实时数据处理系统

引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要。流计算的出现，就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同，流计算模型在数据流动的过程中实时地进行捕捉和处理，并根据业务需求对数据进行计算分析，最终把结果保存或者分发给需要的组件。本文将从实时数

2017-11-29 13:29:24 686

转载 Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中

一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表：create 'linecount','count'开启kafka集群并建立相应的topic：[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h

2017-11-29 13:21:52 1632

转载整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版

2017-11-28 10:14:38 282

转载 Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我

2017-11-28 10:03:47 546

转载 sklearn聚类算法评估方法之各种系数

python中的分群质量主要参考来自官方文档：Clustering部分内容来源于：机器学习评价指标大汇总个人比较偏好的三个指标有：Calinski-Harabaz Index（未知真实index的模型评估）、Homogeneity, completeness and V-measure（聚类数量情况）、轮廓系数1.1 Adjusted Rand index 调整兰德系数

2017-11-24 14:15:33 42995 8

转载自动化机器学习将成为下一个AI研究主流？听听数据科学家怎么说

在过去的一年当中，自动化机器学习已经成为一个众人感兴趣的话题。KDnuggets举办了一个关于该话题的博客大赛。结果喜人，有很多有意思的想法与项目被提出来了。一些自动化学习工具也引起了大家的兴趣，受到了大家的追捧。本篇文章的作者 Matthew Mayo 将会对自动化学习进行简单的介绍，探讨下一下它的合理性、采用情况，介绍下它现在使用的工具，讨论下它预期的未来发展方向。什么是自动化机器

2017-11-24 11:48:18 1712

转载 Tensorflow实例之使用LSTM预测股票每日最高价（二）

Tensorflow实例之使用LSTM预测股票每日最高价（二）：根据股票历史数据中的最低价、最高价、开盘价、收盘价、交易量、交易额、跌涨幅等因素，对下一日股票最高价进行预测。实验用到的数据长这个样子：label是标签y，也就是下一日的最高价。列C——I为输入特征。本实例用前5800个数据做训练数据。单因素输入特征及RNN、LSTM的介绍请戳上一篇 Tensorflow实例：

2017-11-23 20:03:50 5330 4

转载 GAN学习指南：从原理入门到制作生成Demo，总共分几步？

生成式对抗网络（GAN）是近年来大热的深度学习模型。最近正好有空看了这方面的一些论文，跑了一个GAN的代码，于是写了这篇文章来介绍一下GAN。本文主要分为三个部分：介绍原始的GAN的原理同样非常重要的DCGAN的原理如何在Tensorflow跑DCGAN的代码，生成如题图所示的动漫头像，附送数据集哦 :-)一、GAN原理介绍说到GAN

2017-11-23 19:33:53 595

转载基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

1. 介绍　　在过去几年中，神经网络已经有了很壮观的进展，现在他们几乎已经是图像识别和自动翻译领域中最强者[1]。为了从海量数据中获得洞察力，需要部署分布式深度学习。现有的DL框架通常需要为深度学习设置单独的集群，迫使我们为机器学习流程创建多个程序（见Figure 1）。拥有独立的集群需要我们在它们之间传递大型数据集，从而引起不必要的系统复杂性和端到端的学习延迟。　　TensorFlo

2017-11-22 16:15:03 596 2

转载如何在Python中实现RFM分析

RFM分析RFM分析是根据客户活跃程度和交易金额贡献，进行客户价值细分的一种方法；可以通过R,F,M三个维度，将客户划分为8种类型。RFM分析过程1.计算RFM各项分值R_S,距离当前日期越近，得分越高，最高5分，最低1分F_S,交易频率越高，得分越高，最高5分，最低1分M_S,交易金额越高，得

2017-11-20 20:43:53 3230 3

转载 #####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值

关于模型检验的ROC值和KS值的异同_ROC曲线和KS值按我的理解，ROC曲线是累计坏占比曲线（图中蓝色曲线）下面的面积（>0.5），KS值是累计坏占比曲线-累计好占比曲线差值（图中红色曲线）的最大值。实际上他们都是一样的？不知道我的理解是否有误？谢谢！精彩解答：ROC(Receiver Operating Characteristic Cu

2017-11-16 11:25:41 2529

转载结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure

例子某大学一个系，总共100人，其中男90人，女10人，现在根据每个人的特征，预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数计算由于我知道男生远多于女生，所以我完全无视特征，直接预测所有人都是男生我预测所的人都是男生，而实际有90个男生，所以预测正确的数量 = 90 需要预测的总数 = 100

2017-11-09 19:06:06 1338 1

转载 Python：with语句和上下文管理器对象

今天看书，书上面提到要尽量使用with自动关闭资源，里面还提到了上下文管理器对象的概念，然后查找资料，对with的解释如下:with的有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理，需要获取一个文件句柄，从文件中读取数据，然后关闭文件句柄。下面就讲下with语句以及上下文管理器对象，希望对你有帮助。

2017-11-09 14:52:10 718

转载风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）

本笔记源于CDA-DSC课程，由常国珍老师主讲。该训练营第一期为风控主题，培训内容十分紧凑，非常好，推荐：CDA数据科学家训练营——————————————————————————————————————————一、风控建模流程以及分类模型建设1、建模流程该图源自课程讲义。主要将

2017-11-07 20:09:30 761

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近

2017-11-07 14:21:17 1492

转载 OLAP引擎——Kylin介绍

Kylin是ebay开发的一套OLAP系统，与Mondrian不同的是，它是一个MOLAP系统，主要用于支持大数据生态圈的数据分析业务，它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中（目前还仅支持hbase），这段时间对mondrian和kylin都进行了使用，发现这两个系统是时间和空间的一个权衡吧，mondrian是一个ROLAP系统，所有的查询可以通过实时的数据库查询完成，而

2017-11-07 10:51:09 403

转载数据立方体----维度与OLAP

数据立方体　　关于数据立方体（Data Cube），这里必须注意的是数据立方体只是多维模型的一个形象的说法。立方体其本身只有三维，但多维模型不仅限于三维模型，可以组合更多的维度，但一方面是出于更方便地解释和描述，同时也是给思维成像和想象的空间；另一方面是为了与传统关系型数据库的二维表区别开来，于是就有了数据立方体的叫法。所以本文中也是引用立方体，也就是把多维模型以三维的方式为代表进行展现和描述

2017-11-07 10:49:50 1996

知网Hownet情感词典.zip

该资料包含知网情感相关的词典，分为中英文单词表，每种都梳理完毕，并整理成单独文件，非常方便，有需要的话，请下载使用。

2020-05-09

mnist.pkl.gz数据文件

mnist.pkl.gz数据文件直接下载拷贝到keras的dataset下方便许多

2017-01-10

近红外猕猴桃测试分类数据

仅供分类算法测试用数据.数据内容为相隔两天的软的猕猴桃的近红外测试数据，标签为-1 和1，可以作为一个不同时间的猕猴桃的分类数据

2016-10-24

ROC曲线源代码包

非常齐全的各类函数包，想画什么样的ROC曲线，都有相应代码，可以自己学习，也可以二次开发进行定制。

2015-10-13

Harris角点提取算法在H型目标追踪上的研究

在有少量干扰图形的情况下，为实现飞行器对着陆平台上的H型目标识别，中心定位以及跟踪控制，本文提出了在添加图像区域滤波的Harris角点提取算法的基础上，利用角点间组成的线段的比例关系以及线段所在直线间的相互关系来实现目标的自动追踪算法。

2015-07-23

基于tiny210的SD卡MP3播放器系统代码

一个小小的例程，如题所述，可以完美运行，需要的同学下下来学习下~

2015-07-17

机器学习实战源代码

这是机器学习实战，树上的全部例子代码，需要的同学可以下下来看看，帮助学习。

2015-07-17

基于FPGA的视频图像采集系统的设计与实现

基于FPGA的视频图像采集系统的设计与实现，提出了可行的基于FPGA的采集系统的设计和实现方法。

2013-05-06

多人物识别

为多人物检测提出了一种研究方法，提出了算法设计等

2013-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

木东的博客

转载 mysql索引总结----mysql 索引类型以及创建

转载十分钟带你理解Kubernetes核心概念

转载 python——操作Redis

转载 #####好######Python标准库系列之Redis模块

转载 #########好####### pyspark-Spark Streaming编程指南

转载 spark streaming + kafka +python(编程)初探

转载 flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算 + Spark 基于pyspark下的实时日志分析

转载使用 Kafka 和 Spark Streaming 构建实时数据处理系统

转载 Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中

转载整合Kafka到Spark Streaming——代码示例和挑战

转载 Kafka+Spark Streaming+Redis实时计算整合实践

转载 sklearn聚类算法评估方法之各种系数

转载自动化机器学习将成为下一个AI研究主流？听听数据科学家怎么说

转载 Tensorflow实例之使用LSTM预测股票每日最高价（二）

转载 GAN学习指南：从原理入门到制作生成Demo，总共分几步？

转载基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

转载如何在Python中实现RFM分析

转载 #####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值

转载结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure

转载 Python：with语句和上下文管理器对象

转载风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）

转载 ROC曲线-阈值评价标准

转载 OLAP引擎——Kylin介绍

转载数据立方体----维度与OLAP

知网Hownet情感词典.zip

mnist.pkl.gz数据文件

近红外猕猴桃测试分类数据

ROC曲线源代码包

Harris角点提取算法在H型目标追踪上的研究

基于tiny210的SD卡MP3播放器系统代码

机器学习实战源代码

基于FPGA的视频图像采集系统的设计与实现

多人物识别

空空如也

知网Hownet情感词典.zip

mnist.pkl.gz数据文件

近红外猕猴桃测试分类数据

ROC曲线 源代码包

Harris角点提取算法在H型目标追踪上的研究

基于tiny210的SD卡MP3播放器系统代码

机器学习实战源代码

基于FPGA的视频图像采集系统的设计与实现

多人物识别

空空如也

ROC曲线源代码包