2017年07月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark SQL与Hive On MapReduce速度比较

我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢？我一直比较疑惑，会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下，因为Spark SQL也兼容了HiveQL，我们就可以通过运行相同的HiveQL语句，比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入hive支持，就可以支持Hive

2017-07-21 11:42:10 4295

转载启发式算法（Heuristic Algorithm）

启发式算法（Heuristic Algorithm）有不同的定义：一种定义为，一个基于直观或经验的构造的算法，对优化问题的实例能给出可接受的计算成本（计算时间、占用空间等）内，给出一个近似最优解，该近似解于真实最优解的偏离程度不一定可以事先预计；另一种是，启发式算法是一种技术，这种技术使得在可接受的计算成本内去搜寻最好的解，但不一定能保证所得的可行解和最优解，甚至在多数情况下，无法阐述所得解同最优

2017-07-20 15:33:01 22637

转载极客学院 TensorBoard:可视化学习

TensorBoard:可视化学习　TensorBoard 涉及到的运算，通常是在训练庞大的深度神经网络中出现的复杂而又难以理解的运算。为了更方便 TensorFlow 程序的理解、调试与优化，我们发布了一套叫做 TensorBoard 的可视化工具。你可以用 TensorBoard 来展现你的 TensorFlow 图像，绘制图像生成的定量指标图以及附加数据。当 Tens

2017-07-20 14:43:45 580

转载【TensorBoard】如何启动tensorboard的详尽步骤 ########

主旨可视化是深度学习神经网络开发、调试、应用中极为重要的手段。Tensorboard是Tensorflow提供的一个可视化工具，本文通过实际代码实验的方式说明使用TensorBoard实现记录变量，实现可视化调试的目的。源代码我的GitHub中TF_Graph项目， singleNerualNode.py网络结构为了简化情况，实验中使用单层神经网络，网络结构

2017-07-20 14:20:57 2687

转载 hive：(group by, having;order by)的使用；group by+多个字段，以及wiki说的group by两种使用限制验证

hive> select * from app_data_stats_historical where os='1' group by dt limit 100;出现结果如下：2014-01-012014-01-06......2014-02-072014-02-102014-02-142014-02-172014-02-24（只返回了一列日期。说明* 不起作用。不过这样，可以

2017-07-19 16:57:12 1506

转载 hive使用技巧（三）——巧用group by实现去重统计

相关文章推荐：hive使用技巧（一）自动化动态分配表分区及修改hive表字段名称hive使用技巧（二）——共享中间结果集hive使用技巧（三）——巧用group by实现去重统计hive使用技巧（四）——巧用MapJoin解决数据倾斜问题Hive使用技巧（五）—— 一行转多行,多行转一行网站统计中常用的指标，pv ,uv ,

2017-07-19 11:22:43 2861

转载 python字符串换行的三种方式

if __name__ == '__main__':#第一种：三个单引号 print ''' 我是一个程序员我刚开始学习Python'''#第二种：三个双引号 print """ 我是一个程序员我刚开始学习python"""#第三种：\结尾 print "我是一个程序员，\ 我刚开始学p

2017-07-18 10:59:38 22579

转载 python的两种退出方式 os._exit() vs sys.exit()

os._exit() vs sys.exit()概述Python的程序有两种退出方式：os._exit()， sys.exit()。本文介绍这两种方式的区别和选择。os._exit()会直接将python程序终止，之后的所有代码都不会继续执行。sys.exit()会引发一个异常：SystemExit，如果这个异常没有被捕获，那么python解释器将会退出。如果有

2017-07-18 10:50:29 586

转载 one hot 编码及数据归一化

机器学习数据预处理之独热编码（One-Hot Encoding）问题由来在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。例如，考虑一下的三个特征：["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "us

2017-07-13 16:27:00 774

转载 python求各种距离公式

[python] view plain copy今天一个偶然的机会体会到了python数据运算的强大。求一个数组各样本之间的距离仅简单的几句代码就行。看来真的技术改变世界啊。废话不多说，记下来怕以后忘记。 [python] view plain copyfrom scipy.spatial.distance im

2017-07-11 14:46:38 3997

转载提取数字、英文、中文、过滤重复字符等SQL函数（含判断字段是否有中文）

在日常应用中，往往根据实际需求录入一些值，而这些值不能直接使用，所以Sql中经常会对字段值进行一些常规的处理。这里搜集了（提取数字、英文、中文、过滤重复字符、分割字符的方法），方便日后查询使用。一、判断字段值是否有中文--SQL 判断字段值是否有中文create function fun_getCN(@str nvarchar(4000)) returns

2017-07-11 14:42:41 472

转载 ARIMA模型

ARIMA模型自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)目录[隐藏]1 什么是ARIMA模型?2 ARIMA模型的基本思想3 ARIMA模型预测的基本程序4 相关链接4.1 各国的box-jenkins模型名称5 ARlMA模型案例分析5.

2017-07-08 13:29:36 4993

转载 Scikit-learn技巧（拓展）总结

1 scikit-learn基础介绍1.1 估计器（Estimator）估计器，很多时候可以直接理解成分类器，主要包含两个函数：fit()：训练算法，设置内部参数。接收训练集和类别两个参数。predict()：预测测试集类别，参数为测试集。大多数scikit-learn估计器接收和输出的数据格式均为numpy数组或类似格式。1.2 转换器（Transformer

2017-07-08 11:47:50 404

转载 Spark中ml和mllib的区别

Spark中ml和mllib的主要区别和联系如下：ml和mllib都是Spark中的机器学习库，目前常用的机器学习功能2个库都能满足需求。spark官方推荐使用ml, 因为ml功能更全面更灵活，未来会主要支持ml，mllib很有可能会被废弃(据说可能是在spark3.0中deprecated）。ml主要操作的是DataFrame, 而mllib操作的是RDD，也就是说二者面向的数据集不一样

2017-07-08 10:31:34 3181

转载 DTW动态规划调整

DTW是一种衡量两个时间序列之间的相似度的方法，主要应用在语音识别领域来识别两段语音是否表示同一个单词。1 DTW方法原理在时间序列中，需要比较相似性的两段时间序列的长度可能并不相等，在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同，比如有的人会把‘A’这个音拖得很长，或者把‘i’发的很短。另外，不同时间序列可能仅仅存在时间轴上的位移，亦即在还原

2017-07-04 17:47:35 2217

转载 HBase 常用Shell命令

两个月前使用过hbase，现在最基本的命令都淡忘了，留一个备查~进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hb

2017-07-04 11:54:05 108

转载 TensorFlow练习: 根据大脸判断性别和年龄

本帖使用TensorFlow做一个根据脸部推断照片人物年龄和性别的练习，网上有很多类似app。训练数据 – Adience数据集Adience数据集来源为Flickr相册，由用户使用iPhone或者其它智能手机设备拍摄，该数据集主要用于进行年龄和性别的未经过滤的面孔估计。同时，里面还进行了相应的landmark的标注，其中包含2284个类别和26580张图片。Adience数据集下载地

2017-07-02 21:35:50 4187 4

转载 Tensorflow实现卷积神经网络，用于人脸关键点识别

今年来人工智能的概念越来越火，AlphaGo以4：1击败李世石更是起到推波助澜的作用。作为一个开挖掘机的菜鸟，深深感到不学习一下deep learning早晚要被淘汰。既然要开始学，当然是搭一个深度神经网络跑几个数据集感受一下作为入门最直观了。自己写代码实现的话debug的过程和运行效率都会很忧伤，我也不知道怎么调用GPU… 所以还是站在巨人的肩膀上，用现成的框架吧。粗略了解一下，现在比较知名

2017-07-02 16:41:27 3885