- 博客(51)
- 资源 (20)
- 收藏
- 关注
原创 python数据分析准备[windowns env]
在windows上安装pycharm community edition坑比较多一、全新安装Python 3.6.2.否则 pip,setuptools都不行二、手动安装scipy,numpy+•http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy•下载scipy,numpy+mkl的whl•在命令行,通过pipinstall
2017-08-01 09:57:35 354
原创 MXNet的源码编译过程总结
目的:理解深度学习主流框架的设计思路,从源码级别进行向上研究过程:从虚拟机开始,在Windows7+VMWare11+CentOS-6.6-x86_64,升级GCC,安装openblas,opencv,升级python,安装python依赖包,替换libstdc++ 测试验证image-classification]# python train_mnist.py经
2017-07-02 00:05:36 6790 1
原创 MXNet-操作符-Part2
继续补充MXNet的操作符的内容统一NDArray Opeartor和符号Opeartor两者相似,区别在于后者有一个完整的依赖图;而逻辑底层基本是相同的;SimpleOp 新的统一化运算符API为I了构造一个依赖图,你必须搞懂:是否有输出值、输入数据,或者头部梯度之外什么都不需要统一操作API的梯度函数,会随着计算的操作类型的差异而辨别。在了解更多的统一操作符
2017-06-08 21:36:05 490
原创 MXNet的运算符-Part1
一个运算符Operator是一个类,同时包含计算逻辑和辅助信息(帮助执行性能优化,比如及时更新和自动求导)为此,建议参考mshadow库,类似tensor结构的mshadown:TBlobMXNet运算符接口的用处:通过指定及时更新来减少内存分配从Python来隐藏内部参数定义输入和输出tensors的关系,允许系统执行模型检查从系统中获得附加的临时空间执行计算;比
2017-06-05 21:48:25 717
原创 MXNet的系统架构和核心系统组件
目的:把握深度学习的前沿趋势和核心技术壁垒,思考最合适的业务方向,探索商业模式。步骤:了解核心技术,从可商业化平台入手探索。起始:MXNet,Tensorflow,Caffe入手,从已有的商业化平台倒拖;比如AWS,Aliyun,华为云等对比。
2017-06-03 23:02:06 1193
原创 GameAI之旅-StarCraft-起始
目的:通过游戏AI了解行业最前沿的AI动向,通过游戏行业观察更多的AI业务价值步骤:搜集GameAI相关的文章、Paper、算法、平台行业新动向:星际争霸被认为是继围棋、扑克之后,AI 与人较量的下一个竞技场。同时也是训练和研究通用人工智能的一个适合的虚拟场景,目前,DeepMind、微软、Facebook和阿里巴巴都在研究用AI 来玩这一游戏,希望能增强AI 智能体的通用能力
2017-05-22 13:34:11 631
原创 Linux内核的起步
目的:2016年猴年来临,经过过去两年的积累,有了进一步的方向和定位:依赖大数据(云计算)的云端GOS和分散在各种可移动、可编程、智能终端的ROS两个OS的互联互通。针对GOS,经过过去几年在Hadoop平台领域的积累,基本能够触类旁通,MR/RDD/Graph/PS/Streaming、实时内存计算都不断的汇集到GOS的计算能力中。而ROS则更加轻盈,同时又承载着GOS的触角和末
2016-02-11 00:31:27 404
原创 Linux shell知多少
shell运行时,通常关心参数第一步:关注参数的特征$# 是传给脚本的参数个数$0 是脚本本身的名字$1是传递给该shell脚本的第一个参数$2是传递给该shell脚本的第二个参数$@ 是传给脚本的所有参数的列表第二:注意通配符Linux shell通配符(wildcard)通配符是由shell处理的(不是由所涉及到命令语句处
2015-08-17 14:05:12 395
原创 Spark的流处理-1
大规模流式处理数据的难题一:可伸缩的节点数量二:计算之外的开销最小化,比如减少复制,减少上行流的备份三:减少延迟,支持时效0.5-2秒以内的80%实时流系统的能力四:快速从故障中进行恢复,或者从慢节点中进行恢复业务场景:实时日志处理,机器学习实时推荐系统传统解决方案罗列:1.模型基于连续操作模型,长期运行的带有状态的操作,会接受每条记录,更新
2015-08-08 17:52:42 590
转载 诸葛孔明的简洁之美
诸葛亮写给儿子的一封信,只用了短短八十六字,但是对于为学做人有精简而且具体的忠告。 一千八百多年前的智慧,在今天的科技时代,原来仍然有其参考价值。 年青时听人 说:「真正的智慧,可以超越时空,历久常新。」初时不知所以,现在觉得所言甚是。 让我们一起向诸葛亮老师学习十堂课,在变局中安身立命,在逆境中找到力量: 『诸葛亮给子书 』 夫君子之行,静
2015-08-08 16:48:56 532
原创 可伸缩分布式ML的Parameter Server的学习笔记-1
一:PS架构的概要 a)数据和工作任务都会在work nodes之间分布,Server维持GSP,并且通过稀疏、稠密向量或者矩阵来表示 b)框架异步管理数据的交互处理,支持灵活一致性数据模型,弹性可伸缩,持续的失败容错二:架构设计难题 分布式优化和推理,需要实现分布式高效算法 a.密集的计算任务 b.需
2015-06-24 09:32:46 988
转载 VIM基础
全局替换,参考实例::1,$ s/home\/hadoop/home\/graph/g:% s/from/to/g注意:1,$表示所有,from为准备替换的字符,to为替换后的字符,如果有转移符号,通过\来增加转义
2015-04-29 14:06:46 593
原创 追踪Drill的最新进展
http://www.tumblr.com/getting_to_know_tumblr/#follow_some_blogs注册了一个tumblr的账号,关注DrillUser的相关Blog作为开源版本的Google的Dremel实现,相当Impala更容易编译安装,代码分析中......
2013-12-20 12:05:31 653
原创 构思一下2013中国大数据周中的几个赛题
看到CSDN中针对第一届大数据周的几个赛题,越来越能感知数据背后的力量;先摘录一下大数据的发展过程:2012年大数据的热点问题:数据科学与大数据的学科边界数据计算的基本模式与范式大数据特性与数据态大数据的数据变换与价值提炼大数据的安全和隐私问题大数据对IT技术架构的挑战大数据的应用及产业链大数据的生态环境问题2013年度大数据发展趋势预测:数据资源化大数据隐私问
2013-11-22 13:11:49 1051
原创 浏览器前段的几个技术需要关注-从firefox入手
自己从事Web应用开发也有7年,虽然最近更多研究时间在海量数据存储、计算领域;但是曾经的自己发奋图强的领域,也不能捞下:浏览器从IE,Firefox,Chrome, 针对开发者来说,前两者用的最多;但是从html5支持上,后两者更多。而从开源领域来看后两者的确值得更加多的关注;从HTML的解析引擎,到JavaScript引擎 FireFox和Chrome都各有所长暂且不说从深层次来
2013-11-10 22:12:55 631
原创 Hadoop跟Spark之间的持续整合
Cloudera公司作为Hadoop商业领域的翘首人物,此前就对将Mahout包装为商业应用的一个商业公司进行收购;开启大数据学习领域的云计算领域,而跟Spark商业公司Databricks的进一步合作;进一步完善HDFS数据存储模型下的另外一种流式计算模型的整合。加上Cloudera自身的Impala产品。在Hadoop领域下,或者大数据模型下的,三种计算和分析技术都集中于Cloudera公
2013-10-31 22:51:01 1086
原创 Hadoop的探索历程
在当下的云计算领域,数据的存储和处理模型作为整体的基石,所以想在云计算中不迷失方向,摸着这些基石,按石索骥。Hadoop本身内置的几个重要基石:HDFS:提供分布式文件系统:提供系统文件级别的抽象和封装,主从模式的架构,API接口,对应的文件的管理和监控体系。MapReduce:构建在HDFS之上,当然也可以推广到更加广泛的分布式存储平台上的并行计算模型,以Key-Value作为数据模
2013-10-27 14:10:30 760
原创 细数Java线程中的工具包
如果用Java多深层次的开发,比如负载均衡、网络程序、底层监控平台、调度算法之类;或者如果用Java编写数据库引擎,必须利用Java的线程库来提升系统的吞吐量。加入一个场景:需要用Java编写一个类似Hive的东西,在一堆分布式的文件系统上,构建一个类似Mysql的数据库存储系统,试想一下需要多少东西需要思考:做个假设如下:1:首先实现对SQL语法的词法分析、语法分析2:对SQL语
2013-10-22 00:33:23 890
原创 对比Oracle和Mysql在锁机制上的类似和差异点
在进一步分析Hadoop相关的分布式事务和锁的机制前,有必要先整理和对比分析一下RDBMS领域最红的两大领军人物Oracle VS Mysql1:事务隔离级别oracle默认为Read committedMysql的InnoDB默认为Repeatable Read.2:锁类别oracle内部级封锁(对外不公布,无法了解)DDL锁(对数据字典、词法分析封锁)细分:
2013-10-21 00:01:46 1084
原创 了解事务和锁对系统瓶颈的影响力
从事软件领域研发,只有设计到数据领域,或者跟数据库打交道,或者NoSQL或者大数据领域下,都离不开事务的应用场景,以及对应的锁设计思路来解决并发的问题。首先关注数据库的事务级别1:Read unommitted(也称之为脏读)事务隔离的最低级别,比如A修改了一个数据,还没有提交,而另外一个用户B就读取都到了。这种场景没有实际的应用价值,因为没有做到ACID原则的Consistent
2013-10-20 01:02:51 724
原创 品味Google带给我们的算法理论
最近在公司分享了Google的大数据背景下的一系列论文所诞生的强大技术好设计思路GPS/MapReduce和BigTable作为第一代的技术背景随着社交网络的发展,2010年,Google发布代号为Caffeine的新一代搜索引擎技术,来支持增量索引更新(帮组Google更好的收集信息(索引)而不是给信息排序。Google Caffeine给网络开发与SEO带来相当大的冲击),以及Preg
2013-09-30 00:28:59 906
原创 提升Oracle所需的基础技能
用了几年的Oracle,对一些日常的优化技术计划已经所有耳闻,简单罗列一些1:单表的查询性能要看数据的量,查询条件,是否命中主键、索引;如果数据量在几百万,几乎不需要考虑;如果几千万到亿的数据量,如果不走索引,查询的性能可想而知; 当然查询记录的数据量跟整表的数据量对比,如果查询的结果跟总量对比比较大时,避免全部扫描如果几乎相当,全部扫描未必是效率低下。 2:多表的
2013-09-26 00:16:50 1160
原创 Hadoop源码分析之-MapReduce篇
Hadoop提供的两大核心HDFS和Map/Reduce,这里先拿MapReduce来分析1:实例程序,WordCount是一个典型的实例所采用的为0.20.2之后的Mapper和Reducerpublic class WordCount { public static class TokenizerMapper extends Mapper{
2013-09-17 00:02:14 909 2
原创 大数据核心技术源码分析之-Avro篇-3
由于篇幅大小控制,本篇继续借助分析avro下的package org.apache.avro的package分析点包括generic,io,ipc,reflect,specific,tool,util1:package genericGenericContainerpublic interface GenericContainer { /** The schema of th
2013-09-16 22:19:13 1491
原创 大数据核心技术源码分析之-Avro篇-2
拿到Avro-trunk下的源码,第一个分析对象就是avro-trunk_src\lang\java下的源码源码结构包括avro,compiler,ipc,mapred,protobuf,thrift等等首先切入avro中一级类集中在JsonProperties[顶级抽象类]Schema,Protocol【继承JsonProperties】SchemaNormali
2013-09-16 00:11:25 2003
原创 大数据核心技术源码分析之-Avro篇
云计算可谓当红的发紫,而作为云计算的领头羊Hadoop的生态圈,日益增大,都知道未来的海量数据时代,掌握了制高点,就等于掌握了核心和命脉;童鞋们,如果不了解云,如何还是,如果了解云,又该如何深入呢;个人也是带着疑问,一步步走来,简单一个思路,看设计原理不难,搭建环境、准备Demo也不难;给出设计思路也不算很难;但是对核心源码的分析和对设计思路的追奔溯源,需要更大的激情和毅力;一句话
2013-09-15 00:17:48 2600
原创 Android源码下的WebView分析
浏览器在各个平台都有,最容易拿到源码的就是Android的;虽然有现成的可用,还是自己分析一下;Android的WebView.java是一个内置的支持浏览器的视图View,查看源码目录frameworks\base\core\java\android\webkit下面有多个java源文件,第一个为WebView.java,这个类可不小,将近8000行; WebView provide
2013-09-03 22:42:33 5666 2
原创 分析google开源框架zxing
google的zxing作为开源的二维码支持库,在智能终端的应用是必不可少的项目网站http://code.google.com/p/zxing/Multi-format 1D/2D barcode image processing library with clients for Android, Javais an open-source, multi-format 1D/
2013-08-26 09:21:39 1756
转载 WebSocket服务器梳理
http://www.huqiwen.com/2012/11/21/use-websocket-in-tomcat7/http://www.cnblogs.com/jifsu/archive/2012/06/15/2550603.htmlhttp://my.oschina.net/shishuifox/blog/67428接下来为进一步分析Websocket的协议、原理、开源实现分析、
2013-08-26 08:36:24 811
转载 Node.js和websocket
Nodejs伴随HTML5的websocket,可谓相当流行http://www.dataguru.cn/article-3350-1.htmlhttp://cnodejs.org/topic/4f16442ccae1f4aa27001139http://www.douban.com/note/214195971/http://my.oschina.net/lionyang/blo
2013-08-23 17:31:56 688
原创 看看node.js访问redis的库
在公司需要分享一下redis的技术,尝试过php,c,java访问的实例,接下来需要看看node.js如何实现访问的首先在redis.io网站的client找到下载页https://github.com/mranney/node_redishttps://github.com/mjijackson/then-redis有两个版本可用
2013-08-22 23:19:48 3862
原创 Node.js所提供的JavaScript API整理和对比
上篇文章提到Node.js所依赖的/lib/*.js就是Node.js所支持的JavaScript API的核心包;对应的在内部通过一系列的wrap将类似Java API的包对象通过JavaScript来暴露出来供开发者使用细数一些具体有哪些包,跟Java的对应能力1:全局对象globalprocessconsole --cout/cin/System.outCl
2013-08-22 23:11:06 845
原创 Node.js背后的技术体系和设计理念
上篇文章谈到Node.js在Cygwin和VS2010下的组合编译,费了点周折,还是编译成功接下来看一看node.js背后的技术和设计理念一:设计理念快速构建网络服务及应用的平台Node.js对网络协议和服务的封装,最终转换为内置的JavaScript语言体系的服务端支持,当然JavaScript作为动态的解释型语言,支持对象和结构化编程;而这些必须依赖一个能够运行JavaSc
2013-08-21 23:55:02 2120
原创 进一步分析Node.js所依赖的包和特性
在编译Node.js的源码是,看到Node.js依赖的包包括cares【c-ares】网址http://c-ares.haxx.se/c-ares is a C library for asynchronous DNS requests (including name resolves)C89 compatibility, MIT licensed, builds for an
2013-08-21 00:03:29 1420
原创 Node.js测试
根据上篇自己编译好的node.exe运行测试实例当然最简单的就是helloworld将该代码var http = require('http');http.createServer(function (req, res) { res.writeHead(200, {'Content-Type': 'text/plain'});res.end('Hello Wo
2013-08-20 00:03:45 1364
原创 Node.js的编译测试
之前编译和简单测试了Google V8引擎,Node.js就是在V8引擎的基础上进一步扩展打造的服务端的JavaScript解释器,当然这个功劳自然离不开牛叉的V8了V8的设计最初为了浏览器使用,而Node.js让它在服务端继续发扬光大,熟悉MongoDB的一定会想在这个数据库中的引擎是什么了,那是将来的问题了1:下载最新版本http://nodejs.org/download/下
2013-08-19 22:15:20 2054 1
原创 Gumbo实例测试
上篇文章,写到编译gumbo成功,接下来测试一下gumbo提供的API如何运行https://github.com/google/gumbo-parser#gumbo---a-pure-c-html5-parser中有一个简单的实例程序#include "gumbo.h"int main(int argc, char** argv) { GumboOutput* output =
2013-08-18 23:26:20 5168 1
原创 V8实例分析
上篇在编译V8引擎,以及初步编译实例后,接下来认真分析一下V8所带的实例v8-trunk\samples下面有3个例子lineprocessor.ccprocess.ccshell.cc首先从shell.cc入手1:编译g++ -I /usr/include/v8 shell.cc -o shell.exe /usr/test/libv8.so -lpthread
2013-08-18 21:36:51 1901
原创 Google V8 JavaScript应用测试实例
上一篇整理的Google V8 Javascript 引擎的编译,接下来在cygwin下面进行个应用测试,看看这个引擎如何实现JavaScript的。吐槽:在浏览上编程都n年了,如今从底层来看看这些如何来实现,相信有兴趣的人都会忍不住的。一起来吧;准备好文件:头文件/usr/include/v8.h类文件/usr/lib/libv8.so接下来准备,在v8的源码中
2013-08-18 00:30:45 2400
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人