自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据分析BDA

Python及机器学习分享

  • 博客(74)
  • 资源 (2)
  • 收藏
  • 关注

原创 终极算法【7】——类推学派

类比是推动许多历史上最伟大科学进度的动力。当达尔文阅读马尔萨斯的《人口论》时,被经济和自然界中生存竞争的相似性触动,所以有了自然选择理论的诞生。类比在机器学习中扮演重要性刚开始进展缓慢,它的第一个算法的化身出现在一份写于1951年的技术报告中,作者是两位伯克利的统计学家——伊夫琳.菲克斯和乔.霍奇斯。最近邻算法是我们类比学习法之旅的第一站,第二站是支持向量机,第三站也是最后一站,是成熟的类比推...

2018-07-29 22:02:02 1486

原创 终极算法【6】——贝叶斯学派

本质上,贝叶斯定理不仅仅是一个简单的规则,当你收到新的论据时,它用来改变你对某个假设的信任度:如果论据和假设一致,假设成立的概率上升,反之则下降。如果我们观察一个即使没有该原因也会发生的结果,那么能肯定的是,该原因的证据力不足。贝叶斯通过以下句子概括了:P(原因|结果)随着P(结果),即结果的先验概率(也就是在原因不明的情况下结果出现的概率)的下降而下降。最终,其他条件不变,一个原因是前验的可...

2018-07-29 12:49:13 1759

原创 终极算法【5】——进化学派

在霍德.利普森位于康奈尔大学的创意机器实验室中,奇形怪状的机器人正在学习爬行和飞行。这些机器人并不是人类工程师设计出来的,而是进化来的,和地球上生命多样性产生的过程一样。使这些机器人进化的算法,是19世纪由查尔斯.达尔文发明的。那时他不觉得这是一种算法,部分原因在于当时缺少一个关键的子程序。一旦1953年詹姆斯.沃森和弗朗西斯.克里克提供了该子程序,进化就会进入第二个阶段:该进化是在计算机中而不是...

2018-05-28 22:29:46 1278

原创 大数据存储综述

本文内容源自网络整理,更多详细内容请阅读参考文献的原文。1 存储方式1.1 块存储块存储就好比硬盘一样,直接挂载到主机,一般用于主机的直接存储空间和数据库应用的存储。它分两种形式:DAS:一台服务器一个存储,多机无法直接共享,需要借助操作系统的功能,如共享文件夹。SAN:金融电信级别,高成本的存储方式,涉及到光纤和各类高端设备,可靠性和性能都很高,除了贵和运维成本高,基本都是好处。云存储的块存储:...

2018-04-01 14:57:08 16305 1

原创 终极算法【4】——联结学派

赫布律是联结主义的基石,联结主义相信知识存储在神经元之间的联结关系中。威廉.詹姆斯在其著作《心理学原理》中,阐明了连接的主要原理,这和赫布律十分相似,只是大脑活动被神经元取代,放电效率被兴奋的传播取代。在符号学派中,符号和它们之间代表的概念之间有一一对应的关系。相反,联结学派的代表方式却是分散式的:每个概念由许多神经元来表示,而每个神经元又会和其他神经元一起代表许多不同的概念。符号学派和联结学派的...

2018-03-24 18:03:27 2107

原创 终极算法【3】——符号学派

理性主义者认为,感官会欺骗人,而逻辑推理是通往知识的唯一可靠的道路。经验主义者认为所有的推理都是不可靠的,知识必须来源于观察及实验。理性主义与经验主义是哲学家最热衷讨论的问题。柏拉图是早期的理性主义者,而亚里士多德是早期的经验主义者。关于这个问题的辩论,真正开始于启蒙运动时期,每方有三位伟大的思想家:笛卡尔、斯宾诺莎、莱布尼茨是理性主义的代表,洛克、贝克莱、休谟则是经验主义的代表。大卫.休谟是最伟...

2018-03-18 11:38:42 2572 1

原创 终极算法【2】——终极算法

机器学习的应用非常广泛,更为惊人的是,相同的算法可以完成不同的事。在机器学习领域之外,如果你要解决不同的问题,就得编写两个不同的程序。相同的机器学习算法不仅可以完成无穷无尽且不同的事,而且和被它们替代的传统算法相比,它们要简单得多。多数学习算法可能只有数百行或者数千行。相比之下,传统程序则需几十万甚至上百万行代码。如果那么少的学习算法就可以做那么多事,那么有一个逻辑上的疑问:单个学习算法可

2018-02-06 22:26:54 2292

原创 终极算法【1】——机器学习革命

当今,算法与我们息息相关,生活周围的手机、汽车、房子、家电和工厂等等,算法无时无刻不在发挥着作用。如果所有算法都突然停止运转,那么就是人类世界的末日。算法就是一系列指令,告诉计算机该做什么。克劳德.香农以“信息论之父”为人们所知,他第一个意识到晶体管的活动就是运算。如果A晶体管只有在B和C晶体管都打开是才打开,那么这时它就是在做小型的逻辑运算;如果A晶体管在B和C晶体管其中一个打开时才

2018-01-28 22:03:59 705

原创 统计思维(实例11)——时间序列分析

时间序列(time series)是来自随时间变化的系统的一系列度量。本章使用的示例来自Zachary M. Jones。Jones的研究目的是调查像大麻合法化这样的政策性决定会对市场产生何种影响。希望大家对本章内容感兴趣,但借此机会重申对数据分析保持专业性态度的重要性。药品是否非法,哪些药品应当属于非法,这是很重要而又难以回答的公共政策问题,人们应当基于诚实准确的数据进行决策。导入和清洗数据从J

2018-01-17 22:38:40 18521 3

原创 统计思维(实例10)——回归

回归分析的目的是描述两组变量之间的关系,一组称为因变量(dependent variable),另一组称为解释变量(explanatory variable)。如果回归分析中只有1个因变量和1个解释变量,就属于简单回归(simple regression)。本章讨论多重回归(multiple regression),涉及多个解释变量。有多个因变量的回归分析称为多元回归(multivariate

2018-01-13 22:13:09 1364

原创 统计思维(实例9)——线性最小二乘法

最小二乘法拟合相关系数度量变量关系的强弱和正负,但并不关注关系的斜率。估计斜率最常用的是线性最小二乘法拟合(linear least squares fit),“线性拟合”是用一条线对变量关系进行建模,“最小二乘法”拟合实现线与数据之间的均方差最小。假设我们要将一个点序列ys表示成另一个序列xs的函数。如果xs和ys之间存在线性关系,截距为inter,斜率为slope,那么我们就可

2018-01-10 23:04:04 1523

原创 统计思维(实例8)——假设检验

假设检验用数字方式描述一个效应的出现概率

2018-01-01 22:16:48 2317 1

原创 统计思维(实例7)——估计

估计基本思路

2017-12-23 20:49:14 1980

原创 统计思维(实例6)——术语整理

统计术语

2017-12-21 22:28:45 884

原创 统计思维(实例5)——变量之间的关系

如果能从一个变量的信息中得到另一个变量的信息,那么这两个变量之间就是相关的。

2017-12-21 22:21:13 6074

原创 统计思维(实例4)——概率密度函数

概率密度函数

2017-12-16 22:19:09 7218

原创 统计思维(实例3)——分布建模

分析分布的CDF

2017-12-03 15:45:33 2762

原创 贝叶斯思维(实例2)——估计

贝叶斯估计

2017-08-20 21:08:11 3295 1

原创 统计思维(实例2)——概率质量函数与累积分布函数

统计思维之概率质量函数与累积分布函数

2017-08-13 21:44:18 4462

原创 贝叶斯方法(实例1)——概率分布

贝叶斯推断之概率分布

2017-08-02 23:21:01 4147

原创 贝叶斯思维(实例1)——贝叶斯基础框架

贝叶斯基础框架及在选择时的使用

2017-07-30 20:56:24 5025

原创 统计思维(实例1)——统计直方图

Python绘制统计直方图

2017-07-02 22:07:43 3947

原创 Python数据分析基础(八)——时间序列

Python时间序列

2017-06-25 22:24:43 2257

原创 Python数据分析基础(七)——数据聚合与分组

Python数据聚合、分组

2017-06-25 22:23:49 636

原创 Python数据分析基础(六)——可视化

Python可视化

2017-06-25 22:22:43 1908

原创 Python数据分析基础(五)——数据规整

pandas数据规整

2017-06-25 21:31:41 521

原创 Python数据分析基础(四)——数据文件处理

pandas数据文件处理

2017-06-25 21:30:26 598

原创 Python数据分析基础(三)——pandas

pandas基础

2017-06-25 21:28:37 834

原创 Python数据分析基础(二)——NumPy基础

NumPy基础

2017-06-25 21:27:17 1352

原创 Python数据分析基础(一)——开发环境

Python开发环境

2017-06-25 21:24:02 834

原创 【文本】数据格式——JSON

JSON数据格式描述

2016-08-24 22:53:54 2220

原创 【中间件】消息队列(一):RabbitMQ、ActiveMQ、Kafka和Redis

消息队列中间件

2016-07-31 18:42:42 10985

原创 【工具】Git入门概念

Git仓库管理和客户端工具

2016-06-25 22:52:59 372

原创 服务发现:Zookeeper vs etcd

服务注册和服务发现是分布式系统和SOA的核心组成部分,服务注册是将服务描述信息写入集群,服务发现则是客户端能从众多服务提供者获取相应正确地址。传统情况下,使用静态配置方法实现服务信息注册。当大型系统中,服务量更大、变化更频繁时,为了避免不必要的服务中断,动态的注册和发现则尤为重要。本文讨论两个可用于服务注册和发现的项目Zookeeper和etcd。

2016-06-19 16:42:59 3492

原创 【Thrift】Thrift框架原理

Apache Thrift软件框架用于跨语言的服务开发,通过代码编译引擎可生成C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Cocoa、JavaScript、Node.js、Smalltalk、OCaml和Delphi等各种语言的服务交互框架。

2016-06-05 23:04:11 1260

原创 【会议】QCon2016会议整理(三)——开源及微服务

开源技术演进与小米广告技术架构。

2016-05-21 20:05:50 886

原创 【会议】QCon2016会议整理(二)——服务架构与治理

服务架构、服务治理与实时监控

2016-05-15 22:59:12 1549

原创 【工具】持续集成工具——Jenkins

Jenkins是现在非常流行的持续集成CI服务器,它易于安装,直接通过Web界面进行配置,而且集成了RSS/Email的通知机制,支持分布式构建,具有丰富的插件。

2016-05-07 19:01:34 7295

原创 【会议】QCon2016会议整理(一)——工程效率与架构

QCon2016架构学习

2016-05-07 18:55:03 2113

原创 【OpenStack】OpenStack原理(二)——开发基础

OpenStack使用Jenkins搭建自己的持续集成服务器。Jenkins背后需要依托大量的单元测试以及集成测试代码,单元测试的代码位于各个项目自身的源码树里,而OpenStack的集成测试则是使用Tempest作为框架。

2016-04-17 21:23:47 1979

时间序列分析测试数据

本章使用的示例来自Zachary M. Jones。Jones的研究目的是调查像大麻合法化这样的政策性决定会对市场产生何种影响。

2018-07-29

位图文件读取、修改、保存

适合初学数字图像处理的朋友们。 介绍了位图的打开、简单修改和保存的过程。

2010-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除