2017年05月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载可视化证明神经网络可以计算任何函数

神经网络的一个最引人注目的特点就是它实际上可以计算任何的函数。也就是说，假设某个人给你某种复杂而奇特的函数，f(x)f(x)：不管这个函数是什么样的，总会有一个神经网络能够对任何可能的输入 xx，网络可以得到对应的值 f(x)f(x)（或者某个足够准确的近似），如图：即使函数有很多输入或者多个输出，这个结果都是成立的，f=f(x1,…,xm)f=f(x1,…,xm)

2017-05-31 10:41:12 3396 1

转载 python 中文乱码问题深入分析

在本文中，以'哈'来解释作示例解释所有的问题，“哈”的各种编码如下： 1. UNICODE (UTF8-16)，C854； 2． UTF-8，E59388； 3． GBK，B9FE。一、python中的str和unicode 一直以来，python中的中文编码就是一个极为头大的问题，经常抛出编码转换的异常，python中的str和unicode到底是一个什么东西呢？在p

2017-05-27 16:30:10 435

转载从强化学习基本概念到Q学习的实现，打造自己的迷宫智能体

近年以来，强化学习在人工智能所充当的角色越来越重要了，很多研究机构和大学都将强化学习与深度学习相结合打造高性能的系统。因此，本文注重描述强化学习的基本概念与实现，希望能为读者介绍这一机器学习分支的巨大魅力。强化学习其实也是机器学习的一个分支，但是它与我们常见监督学习和无监督学习又不太一样。强化学习旨在选择最优决策，它讲究在一系列的情景之下，通过多步恰当的决策来达到一个目标，是一种序列多

2017-05-27 16:05:24 8238

转载 Spark常见问题汇总

spark master和spark worker挂掉application恢复问题首先分5中情况：1，spark master进程挂掉了2，spark master在执行中挂掉了3，spark worker提交任务前全部挂掉了4，spark worker在执行application过程中挂掉了5，spark worker在执行applica

2017-05-27 16:04:28 14635 1

转载 Phoenix二级索引(Secondary Indexing)的使用

摘要HBase只提供了一个基于字典排序的主键索引，在查询中你只能通过行键查询或扫描全表来获取数据，使用Phoenix提供的二级索引，可以避免在查询数据时全表扫描，提高查过性能，提升查询效率测试环境：数据约370万数据格式：(数据来自搜狗实验室)三节点集群（一主两从，hadoop和HBase属同一集群）目录Cov

2017-05-25 14:43:48 563

转载神经网络+增强学习

神经网络+增强学习神经网络+增强学习马里奥AI实现方式探索 ——神经网络+增强学习儿时我们都曾有过一个经典游戏的体验，就是马里奥（顶蘑菇^v^），这次里约奥运会闭幕式，日本作为2020年东京奥运会的东道主，安倍最后也已经典的马里奥形象出现。平时我们都是人来玩马里奥游戏，能否可以让马里奥智能的自己闯关个呢？OK，利用人工智能的相关算法来进行自动化通关一直是一个热门的话

2017-05-25 14:00:25 2814

转载 Phoenix 二级索引之— —Global Indexing

1. 说明在Hbase中，只有一个单一的按照字典序排序的rowKey索引，当使用rowKey来进行数据查询的时候速度较快，但是如果不使用rowKey来查询的话就会使用filter来对全表进行扫描，很大程度上降低了检索性能。而Phoenix提供了二级索引技术来应对这种使用rowKey之外的条件进行检索的场景。Phoenix支持两种类型的索引技术：Global Indexing和L

2017-05-25 09:57:33 460

转载 IntelliJ IDEA开发Spark、打JAR包

一、基于Non-SBT方式创建一个Scala IDEA工程我们使用Non-SBT的方式，点击“Next”命名工程，其他按照默认点击“Finish”完成工程的创建修改项目的属性首先修改Modules选项在src下创建两个文件夹，并把其属性改为source下面修改Libr

2017-05-23 17:47:22 2008

转载 python 字符编码与解码——unicode、str和中文：UnicodeDecodeError: 'ascii' codec can't decode

摘要：在进行Python脚本的编写时，如果我们用python来处理网页数据或者进行与中文字符有关的处理工作，经常出现这样的出错信息：SyntaxError: Non-ASCII character '\xe6' in file ./filename.py on line 3, but no encoding declared。本文主要讲解python中与unicode和中文、特殊字符编码有关的

2017-05-23 10:59:24 814

转载 Hive 导入CSV文件

SerDe 介绍Hive 使用如下FileFormat 类读写 HDFS files:TextInputFormat/HiveIgnoreKeyTextOutputFormat: 读写普通HDFS文本文件.SequenceFileInputFormat/SequenceFileOutputFormat: 读写SequenceFile格式的HDFS文件.Hive 使用如下SerD

2017-05-18 15:44:48 1112

转载 phoenix支持的QL语法

支持的命令如下：SELECTExample:SELECT * FROM TEST LIMIT 1000;SELECT * FROM TEST LIMIT 1000 OFFSET 100;SELECT full_name FROM SALES_PERSON WHERE ranking >= 5.0 UNION ALL SELECT reviewer_name FROM CUSTO

2017-05-18 11:31:56 3690

转载 HIVE和HBASE区别

1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/

2017-05-18 11:14:10 393

转载使用 Phoenix 通过 sql 语句更新操作 hbase 数据

hbase 提供很方便的shell脚本，可以对数据表进行 CURD 操作，但是毕竟是有一定的学习成本的，基本上对于开发来讲，sql 语句都是看家本领，那么，有没有一种方法可以把 sql 语句转换成 hbase的原生API呢？这样就可以通过普通平常的 sql 来对hbase 进行数据的管理，使用成本大大降低。Apache Phoenix 组件就完成了这种需求，官方注解为 “Phoenix - we

2017-05-18 10:54:19 1358

转载 Machine Learning With Spark Note 2:构建简单的推荐系统

本文为数盟特约作者投稿，欢迎转载，请注明出处“数盟社区”和作者博主简介：段石石，1号店精准化推荐算法工程师，主要负责1号店用户画像构建，喜欢钻研点Machine Learning的黑科技，对Deep Learning感兴趣，喜欢玩kaggle、看9神，对数据和Machine Learning有兴趣咱们可以一起聊聊，个人博客： hacker.duanshishi.com推荐引擎应

2017-05-17 10:38:29 562

转载 Python list去重

比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))print l2还有一种据说速度更快的，没测试过两者的速度差别l1 = ['b','c','d','b','c','a','a']l2 = {}.fromkeys(l1).keys()print l2这两种都有个缺点，祛除重复

2017-05-17 09:42:17 426

转载 TensorFlow23: “恶作剧” --人脸检测

前面有一个帖《OpenCV检测场景内是否有移动物体》我用树莓派做了一个简单的Motion Detection，放在卫生间的，它会在我上大号时自动播放音乐。我一个人租房，几个盆友周末时常会找我玩，他们觉得我做的Motion Detection很垃圾。于是我就想恶搞一下，用TensorFlow做一个“人脸识别”，在我上大号时播放音乐，如果是别人就播放《张震讲鬼故事》（@xingCI说放屁声

2017-05-17 00:25:08 2387

转载 OpenCV Python教程（1、图像的载入、显示和保存）

本文是OpenCV 2 Computer Vision Application Programming Cookbook读书笔记的第一篇。在笔记中将以Python语言改写每章的代码。PythonOpenCV的配置这里就不介绍了。注意，现在OpenCV for Python就是通过NumPy进行绑定的。所以在使用时必须掌握一些NumPy的相关知识！图像就是一个矩阵，在OpenCV fo

2017-05-16 23:41:48 530

转载从原理到代码：大牛教你如何用 TensorFlow 亲手搭建一套图像识别模块 | AI 研习社

自 2015 年 11 月首次发布以来，TensorFlow 凭借谷歌的强力支持，快速的更新和迭代，齐全的文档和教程，以及上手快且简单易用等诸多的优点，已经在图像识别、语音识别、自然语言处理、数据挖掘和预测等 AI 场景中得到了十分广泛的应用。在所有这些 AI 应用场景中，或许是源于视觉对人类的直观性和重要性，图像识别成为其中发展速度最快的一个。目前，该技术已经逐渐趋于成熟，并在人脸和情绪识别

2017-05-16 23:27:08 3301

转载 Python高级编程技巧

正文：本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中，你可以根据需要选择合适的数据结构，例如对快速查找性的要求、对数据一致性的要求或是对索引的要求等，同时也可以将各种数据结构合适地结合在一起，从而生成具有逻辑性并易于理解的数据模型。Python的数据结构从句法上来看非常直观，并且提供了大量的可选操作。这篇指南尝试将大部分常用的数据结构知识放到一起，并且提供对其最佳用法

2017-05-16 00:16:14 2157

转载如何基于Spark做深度学习：从Mllib到keras，elephas

Spark ML model pipelines on Distributed Deep Neural NetsThis notebook describes how to build machine learning pipelines with Spark ML for distributed versions of Keras deep learning models. As dat

2017-05-15 17:10:53 583

转载如何基于Spark做深度学习：从Mllib到keras，elephas

Spark ML model pipelines on Distributed Deep Neural NetsThis notebook describes how to build machine learning pipelines with Spark ML for distributed versions of Keras deep learning models. As dat

2017-05-15 17:05:46 764

转载卷积神经网络_（1）卷积层和池化层学习

卷积神经网络（CNN）由输入层、卷积层、激活函数、池化层、全连接层组成，即INPUT-CONV-RELU-POOL-FC(1)卷积层：用它来进行特征提取，如下：输入图像是32*32*3，3是它的深度（即R、G、B），卷积层是一个5*5*3的filter(感受野)，这里注意：感受野的深度必须和输入图像的深度相同。通过一个filter与输入图像的卷积可以得到一个28*28*1的特征图，上图

2017-05-15 16:11:22 4860

转载 Python中字符串中的数字提取方法

逛到一个有意思的博客http://cuiqingcai.com/category/technique/python 在里面看到一篇关于ValueError: invalid literal for int() with base 10错误的解析，针对这个错误，博主已经给出解决办法，使用的是re.sub 方法1 totalCount = '100abc'2 totalCount = r

2017-05-15 13:52:11 40356 1

转载 python—pandas中DataFrame类型数据操作函数

Python数据分析工具pandas中DataFrame和Series作为主要的数据结构.本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。1）查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象df_obj.dtypes #查看各行的数据格式df_obj['列名'].astype(int)#转换

2017-05-15 13:49:22 679

转载 python 字符串详解（好用）

什么是字符串字符串字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。通常以串的整体作为操作对象，如：在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是：长度相等，并且各个对应位置上的字符都相等。python 字符串相关特性

2017-05-12 16:06:21 739

转载 HDFS——如何将文件从HDFS复制到本地

下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法：Hadoop fs -get [-ignorecrc] [-crc]复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例：hadoop fs -get /user/hadoop/file localfilehadoop fs -get hd

2017-05-11 15:05:08 77866 1

转载 Python-list-sort()

Python-list-sort()http://wiki.python.org/moin/HowTo/Sorting/Python lists have a built-in sort() method that modifies the list in-place and asorted()built-in function that builds a new sorted lis

2017-05-11 14:43:18 453

转载 Spark性能优化总结

近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。经优化，使用160 vcores + 480G memory，一天的日志可在2.5小时内跑完，下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减，首要解决的是程序能够跑通大数据量，资源

2017-05-10 15:45:47 243

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪

2017-05-10 15:03:35 409

转载 Python转义字符

Python转义字符在需要在字符中使用特殊字符时，python用反斜杠(\)转义字符。如下表：原始字符串有时我们并不想让转义字符生效，我们只想显示字符串原来的意思，这就要用r和R来定义原始字符串。如：print r'\t\r'实际输出为“\t\r”。转义字符描述\(在行尾时)续行符\\反斜杠符号

2017-05-10 14:17:48 3012

转载 Python中的高级数据结构

数据结构数据结构的概念很好理解，就是用来将数据组织在一起的结构。换句话说，数据结构是用来存储一系列关联数据的东西。在Python中有四种内建的数据结构，分别是List、Tuple、Dictionary以及Set。大部分的应用程序不需要其他类型的数据结构，但若是真需要也有很多高级数据结构可供选择，例如Collection、Array、Heapq、Bisect、Weakref、Copy以及Ppri

2017-05-10 11:11:23 619

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证

2017-05-10 10:56:03 321

转载 Spark性能优化指南——基础篇

Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内）

2017-05-10 10:45:39 654

转载 pyspark-combineByKey详解

最近学习Spark，我主要使用pyspark api进行编程，网络上中文的解释不是很多，api官方文档也不是很容易明白，我结合自己的理解记录下来，方便别人参考，也方便自己回顾吧本文介绍的是pyspark.RDD.combineByKeycombineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions

2017-05-09 15:02:56 5082

转载 Python之isinstance

[python] view plain copy isinstance isinstance(object, classinfo) 判断实例是否是这个类或者object是变量 classinfo 是类型(tuple,dict,int,float) 判断变量是否是这个类型 class objA: pass A = objA() B = '

2017-05-08 15:48:02 395

转载 org.apache.hadoop.io.compress系列1-认识解码器/编码器

编码器和解码器用以执行压缩解压算法。在Hadoop里，编码/解码器是通过一个压缩解码器接口实现的。因此，例如，GzipCodec封装了gzip压缩的压缩和解压算法。下表列出了Hadoop可用的编码/解码器。压缩格式 Hadoop压缩编码/解码器DEFLATE org.apache.hadoop.io.compress.DefaultCodecgzip org.apache.hadoop.io.c

2017-05-08 10:20:44 739

转载 ##########(python 解析参数方法可用) Python optionParser模块的使用方法 #######

Python 有两个内建的模块用于处理命令行参数：一个是 getopt，《Deep in python》一书中也有提到，只能简单处理命令行参数；另一个是 optparse，它功能强大，而且易于使用，可以方便地生成标准的、符合Unix/Posix 规范的命令行说明。示例from optparse import OptionParser

2017-05-05 10:33:22 5148

转载 RDD基本操作（下）

上一篇里我提到可以把RDD当作一个数组，这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。　　Spark是一个计算框架，是对mapreduce计算框架的改进，mapreduce计算框架是基于键值对也就是map的形式，之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里的计

2017-05-04 17:28:12 634

转载 RDD 基础操作

本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的。　　Spark里的计算都是操作RDD进行，那么学习RDD的第一个问题就是如何构建RDD，

2017-05-04 15:24:58 608

转载 spark rdd 和 DF 转换

RDD -》 DF 有两种方式一、一、Inferring the Schema Using Reflection 将 RDD[t] 转为一个 object ,然后 to df val peopleDF = spark.sparkContext .textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(a

2017-05-04 14:57:13 12647