- 博客(24)
- 资源 (9)
- 收藏
- 关注
转载 mysql索引总结----mysql 索引类型以及创建
文章归属:http://feiyan.info/16.html,我想自己去写了,但是发现此君总结的非常详细。直接搬过来了关于MySQL索引的好处,如果正确合理设计并且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车。对于没有索引的表,单表查询可能几十万数据就是瓶颈,而通常大型网站单日就可能会产生几十万甚至几百万的数据,没有索引查询会变的非常缓
2017-11-30 17:33:18 269
转载 十分钟带你理解Kubernetes核心概念
本文将会简单介绍Kubernetes的核心概念。因为这些定义可以在Kubernetes的文档中找到,所以文章也会避免用大段的枯燥的文字介绍。相反,我们会使用一些图表(其中一些是动画)和示例来解释这些概念。我们发现一些概念(比如Service)如果没有图表的辅助就很难全面地理解。在合适的地方我们也会提供Kubernetes文档的链接以便读者深入学习。这就开始吧。什么是Kubernetes
2017-11-29 17:47:39 274
转载 python——操作Redis
在使用django的websocket的时候,发现web请求和其他当前的django进程的内存是不共享的,猜测django的机制可能是每来一个web请求,就开启一个进程去与web进行交互,一次来达到利用cpu多核的目的。但是这样一来,内存共享的问题就变成了焦点。这周试了一下redis,果然很好用。 redis是一个key-value存储系统。和Memcached类似,它支持存储的valu
2017-11-29 16:58:11 1488
转载 #####好######Python标准库系列之Redis模块
Python标准库系列之Redis模块What is redis?Redis is an open source (BSD licensed), in-memory data structure store, used as database, cache and message broker. It supports data structures such as str
2017-11-29 16:52:53 943
转载 #########好####### pyspark-Spark Streaming编程指南
参考:1、http://spark.apache.org/docs/latest/streaming-programming-guide.html2、https://github.com/apache/spark/tree/v2.2.0Spark Streaming编程指南OverviewA Quick ExampleBasic Concepts
2017-11-29 14:12:34 1298
转载 spark streaming + kafka +python(编程)初探
一、环境部署hadoop集群2.7.1zookeerper集群kafka集群:kafka_2.11-0.10.0.0spark集群:spark-2.0.1-bin-hadoop2.7.tgz环境搭建可参考我前面几篇文章。不再赘述三台机器:master,slave1,slave2二、启动集群环境1.启动hadoop集群start-all.sh2.启动spark集群start-mas
2017-11-29 14:11:00 5684
转载 flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算 + Spark 基于pyspark下的实时日志分析
鉴于实在是比较少python相关是spark streaming的例子,对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序,强烈建议使用scala,python写日常的spark批处理程序还好这个例子为一个简单的收集hive的元数据日志,监控各个hive客户端访问表的统计。例子简单,但是涉及到不同的组件的应用,结构图(不含红色方框)如下 这也是L
2017-11-29 14:03:21 2152
转载 使用 Kafka 和 Spark Streaming 构建实时数据处理系统
引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模型在数据流动的过程中实时地进行捕捉和处理,并根据业务需求对数据进行计算分析,最终把结果保存或者分发给需要的组件。本文将从实时数
2017-11-29 13:29:24 686
转载 Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h
2017-11-29 13:21:52 1632
转载 整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版
2017-11-28 10:14:38 282
转载 Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我
2017-11-28 10:03:47 546
转载 sklearn聚类算法评估方法 之各种系数
python中的分群质量主要参考来自官方文档:Clustering部分内容来源于:机器学习评价指标大汇总个人比较偏好的三个指标有:Calinski-Harabaz Index(未知真实index的模型评估)、Homogeneity, completeness and V-measure(聚类数量情况)、轮廓系数1.1 Adjusted Rand index 调整兰德系数
2017-11-24 14:15:33 42995 8
转载 自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说
在过去的一年当中,自动化机器学习已经成为一个众人感兴趣的话题。KDnuggets举办了一个关于该话题的博客大赛。结果喜人,有很多有意思的想法与项目被提出来了。一些自动化学习工具也引起了大家的兴趣,受到了大家的追捧。本篇文章的作者 Matthew Mayo 将会对自动化学习进行简单的介绍,探讨下一下它的合理性、采用情况,介绍下它现在使用的工具,讨论下它预期的未来发展方向。什么是自动化机器
2017-11-24 11:48:18 1712
转载 Tensorflow实例之使用LSTM预测股票每日最高价(二)
Tensorflow实例之使用LSTM预测股票每日最高价(二):根据股票历史数据中的最低价、最高价、开盘价、收盘价、交易量、交易额、跌涨幅等因素,对下一日股票最高价进行预测。实验用到的数据长这个样子:label是标签y,也就是下一日的最高价。列C——I为输入特征。本实例用前5800个数据做训练数据。单因素输入特征及RNN、LSTM的介绍请戳上一篇 Tensorflow实例:
2017-11-23 20:03:50 5330 4
转载 GAN学习指南:从原理入门到制作生成Demo,总共分几步?
生成式对抗网络(GAN)是近年来大热的深度学习模型。最近正好有空看了这方面的一些论文,跑了一个GAN的代码,于是写了这篇文章来介绍一下GAN。本文主要分为三个部分:介绍原始的GAN的原理 同样非常重要的DCGAN的原理 如何在Tensorflow跑DCGAN的代码,生成如题图所示的动漫头像,附送数据集哦 :-)一、GAN原理介绍说到GAN
2017-11-23 19:33:53 595
转载 基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍 在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1]。为了从海量数据中获得洞察力,需要部署分布式深度学习。现有的DL框架通常需要为深度学习设置单独的集群,迫使我们为机器学习流程创建多个程序(见Figure 1)。拥有独立的集群需要我们在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟。 TensorFlo
2017-11-22 16:15:03 596 2
转载 如何在Python中实现RFM分析
RFM分析RFM分析是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法;可以通过R,F,M三个维度,将客户划分为8种类型。RFM分析过程1.计算RFM各项分值R_S,距离当前日期越近,得分越高,最高5分,最低1分F_S,交易频率越高,得分越高,最高5分,最低1分M_S,交易金额越高,得
2017-11-20 20:43:53 3230 3
转载 #####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值
关于模型检验的ROC值和KS值的异同_ROC曲线和KS值按我的理解,ROC曲线是累计坏占比曲线(图中蓝色曲线)下面的面积(>0.5),KS值是累计坏占比曲线-累计好占比曲线差值(图中红色曲线)的最大值。实际上他们都是一样的?不知道我的理解是否有误?谢谢! 精彩解答:ROC(Receiver Operating Characteristic Cu
2017-11-16 11:25:41 2529
转载 结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure
例子某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数计算由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生 我预测所的人都是男生,而实际有90个男生,所以 预测正确的数量 = 90 需要预测的总数 = 100
2017-11-09 19:06:06 1338 1
转载 Python:with语句和上下文管理器对象
今天看书,书上面提到要尽量使用with自动关闭资源,里面还提到了上下文管理器对象的概念,然后查找资料,对with的解释如下:with的有一些任务,可能事先需要设置,事后做清理工作。对于这种场景,Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理,需要获取一个文件句柄,从文件中读取数据,然后关闭文件句柄。下面就讲下with语句以及上下文管理器对象,希望对你有帮助。
2017-11-09 14:52:10 718
转载 风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)
本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、风控建模流程以及分类模型建设1、建模流程该图源自课程讲义。主要将
2017-11-07 20:09:30 761
转载 ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近
2017-11-07 14:21:17 1492
转载 OLAP引擎——Kylin介绍
Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系统,所有的查询可以通过实时的数据库查询完成,而
2017-11-07 10:51:09 403
转载 数据立方体----维度与OLAP
数据立方体 关于数据立方体(Data Cube),这里必须注意的是数据立方体只是多维模型的一个形象的说法。立方体其本身只有三维,但多维模型不仅限于三维模型,可以组合更多的维度,但一方面是出于更方便地解释和描述,同时也是给思维成像和想象的空间;另一方面是为了与传统关系型数据库的二维表区别开来,于是就有了数据立方体的叫法。所以本文中也是引用立方体,也就是把多维模型以三维的方式为代表进行展现和描述
2017-11-07 10:49:50 1996
Harris角点提取算法在H型目标追踪上的研究
2015-07-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人