自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

GG的专栏

https://github.com/Winchester-Yi

原创 个人博客网站

个人博客网站http://hyperparameter.cn暂时与CSDN上面的博客同步发布,后面重心会逐渐转到个人博客上

2018-05-07 17:11:21 177

原创 并行排序

个人博客网址:http://hyperparameter.cn/并行排序算法是计算机并行计算能力大大发展之后,为了提高排序效率而提出的算法。原有的的排序算法都是给定了数据再进行排序,排序的效率很大程度上取决于数据的好坏,例如快速排序、归并排序。并行排序则是一类完全不同的排序方法,它的所有比较操作都与数据无关。并行排序的表示方式是排序网络,其主要构件就是Batcher比较器,通过组合比较器构建...

2019-04-20 14:05:34 1856 1

原创 矩阵论基础

矩阵是数学中的一个重要的基本概念,是代数学的一个主要研究对象,也是数学研究和应用的一个重要工具。“矩阵”这个词是由西尔维斯特首先使用的,他是为了将数字的矩形阵列区别于行列式而发明了这个述语。而实际上,矩阵这个课题在诞生之前就已经发展的很好了。从行列式的大量工作中明显的表现出来,为了很多目的,不管行列式的值是否与问题有关,方阵本身都可以研究和使用,矩阵的许多基本性质也是在行列式的发展中建立起来的。...

2019-04-15 15:32:17 785

转载 海康威视2019年校园招聘内推码(2019届春招、2020届实习/秋招)

**官宣**拥有内推码的同学,同等条件择优录取,在每一个环节都会更加具有优势##海康威视2019年校园招聘内推码(2019届春招、2020届实习/秋招):**5S3QAI(最好复制内推码,不要写错了,写错了可能就内推不上)**校园招聘宣传链接:2019届应届生春招网申地址:海康威视校招招聘系统2020届实习生招聘网申地址:总部:算法、安全、研发、设计、海外类等岗位分公司:国内...

2019-03-06 20:52:33 2829

原创 关于matplotlib的后端(Backend)

主要是在看《深入理解TensorFlow 架构设计与实现原理》遇到的问题,其中第3章有一段源码。# -*- coding=utf-8 -*-import tensorflow as tfimport matplotlib.pyplot as pltimport numpy as np# 打印日志的步长log_step = 50# ================ 1.定义超参...

2018-09-15 23:45:33 9804

翻译 正态和伽马分布族

最近参与翻译的一本书,以下是我翻译的其中一章,其余可以阅读 https://github.com/apachecn/prob140-textbook-zh 英文原文:https://nbviewer.jupyter.org/github/prob140/textbook/tree/gh-pages/notebooks/18. 正态和伽马分布族# HIDDENfrom data...

2018-09-02 20:39:59 4368

原创 平方和定理

在数论里,平方和定理的对象为整数n>1n>1n>1能够被写为两个平方和的形式,即n=a2+b2n=a2+b2n=a^2+b^2。该定理如下: 一个比111大的整数能够被写成两个平方的和的形式,当且仅当它的素数分解中不包含这样的素数,该素数对4取余等于3且该素数的指数为奇数。例如,2450=2⋅52⋅722450=2⋅52⋅722450=2\cdot 5^2\cdot 7^...

2018-08-27 14:48:44 682

翻译 联合密度分布

最近参与翻译的一本书,以下是我翻译的其中一章,其余可以阅读 https://github.com/apachecn/prob140-textbook-zh 英文原文:https://nbviewer.jupyter.org/github/prob140/textbook/tree/gh-pages/notebooks/17. 联合密度我们现在开始研究两个连续随机变量的联合概率密度。这些...

2018-08-25 21:51:20 3735

原创 Android开发学习记录

Android开发学习记录Android开发学习记录1. 学习路线1.1 Java部分1.2 Android部分2. Android入门介绍2.1 Activity2.2 Service2.3 Android Broadcast Receiver3. 电气火灾系统Android端结构3.1 系统结构概述3.2 模块设计UI模块Bean模块其余部件OK...

2018-08-25 18:13:23 411

原创 CUDA——基本模型

CUDA简介CUDA(Compute Unified Device Architecture,统一计算架构)是由NVIDIA所推出的一种集成技术,通过这个技术,用户可以使用显卡中的资源进行大规模并行计算。为了后续CUDA编程的展开,该系列的第一篇首先从N系显卡的物理结构以及CUDA编程中的基本模型开始。物理结构Nvidia公司开发的GPU系列现在已经有Tesla、Fermi、K...

2018-07-03 20:33:37 1248 1

原创 初遇分布式系统(二)

《好玩又实在的分布式系统理论》的第二部分主要分析抽象的分布式系统模型并提出问题. 抽象是为了得到能充分描述系统的最少元素,能够排除干扰,分析本质的作用.系统模型程序在分布式系统中运行也就是,在独立节点并发运行通过网络连接节点并伴随着不确定性如信息丢失等无共享的存储器与时钟以上这些也就意味着,信息是局部的,很有可能其余节点得到的信息是过时的独立节点存在失效的情况...

2018-06-05 20:55:26 198

原创 初遇分布式系统(一)

简述前期博文主要是针对一些分布式系统资料的学习笔记.《Distributed systems theory for the distributed systems engineer》中提到的《好玩又实在的分布式系统理论》是一本精悍的书籍,主要针对分布式系统中的基本问题,如时序与复制策略等方面.首先需要说明关于分布式中的一些认知误区:网络是可靠的延迟为零带宽无限网络非常安全...

2018-06-04 21:44:57 180

原创 Linux环境设置

首先,Linux的环境设置有点坑的是会在shell启动的时候,通过多个文件进行环境配置,所以在多个文件中都可以增添环境.环境配置文件全局环境变量(针对所有用户)/etc/environment/etc/bashrc/etc/profile针对单个用户~/.bashrc~/.profile或者~/.bash_profile、~/.bash_login可以用...

2018-05-29 10:10:41 130

原创 统计学总结

统计基础3σσ\sigma原则正态分布X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)中,P(μ−σ<X<μ+σ)=0.6826P(μ−σ<X<μ+σ)=0.6826P(\mu-\sigma\lt X\lt \mu+\sigma)=0.6826P(μ−2σ<X<μ+2σ)=0.9545P(μ−2σ<...

2018-05-28 20:41:44 870

转载 [转]Evolution of Machine Learning

转载地址:https://www.datasciencecentral.com/profiles/blogs/evolution-of-machine-learning-infographics

2018-05-15 16:31:23 111

原创 Cox-Box变换

在《回归分析的基本假设》中提到了回归分析中的基本假设.这里的Box-Cox变换方法能够解决回归模型中的误差项不服从高斯分布的违例问题.通常这种违例情况出现在,误差ϵϵ\epsilon与预测变量相关的时候,会影响模型结果的精确度.简单的方法就是通过对XXX进行变换,如yyyy=x−−√=1x=1x−−√=ln(x)(1)(1)y=xy=1xy=1xy=ln(x)\begin{equation}\...

2018-05-14 15:33:33 1635

原创 2018 年成都人工智能前沿论坛总结

PDF版下载地址:https://download.csdn.net/download/u010945683/10412529本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。...

2018-05-14 10:42:11 903

翻译 [译]回归分析的基本假设

原文地址:《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》引言回归分析标志着预测建模的第一步.毫无疑问,它很容易实现,而且它的参数不会造成任何混乱,但是仅仅运行一行代码并不能解决问题.不只是看R2R2R^2和MSE,回归能说明更多的问题.为了模型效果的提升,必须首先了解回归...

2018-05-14 10:18:27 10698 1

原创 人工智能审视

现发展的人工智能的根本局限是,问题催生智能.没有问题的存在,智能不会消失或增加.这也就意味着,就目前的技术,智能系统不可能突破给定任务所局限的问题,我们所梦想或惧怕的通用人工智能(类人)是不可能出现的.现有的人工智能是为具体任务服务,就算出现错误也只是在任务中失败.至于一些人工智能阴谋论者所想的毁灭世界是不可能的.AI 的特殊性在于,它结合了一般数字技术的特性(包括通过复制程序的可扩展性并...

2018-05-07 18:31:25 107

原创 On the Number of Linear Regions of Deep Neural Networks

文献来源:Montufar G F, Pascanu R, Cho K, et al. On the number of linear regions of deep neural networks[C]//Advances in neural information processing systems. 2014: 2924-2932.https://papers.nips.cc/pape...

2018-05-07 17:14:55 576

转载 KaTex数学公式编辑器相关

来源:https://khan.github.io/KaTeX/function-support.html图片在新标签页打开可看清晰大图.KaTex与MathJaxhttps://jsperf.com/katex-vs-mathjax已支持特性未支持特性使用注意Katex不管是行内还是行间都是使用双美元符$$ $$具体示例可以查阅: ...

2018-05-07 15:55:05 5581

原创 自然语言处理(一)——基础

现在流行的自然语言处理方法中,主要分为基于统计的经典模型和基于火热的深度学习模型.统计模型主要会涉及到概率论和信息论方面的知识,在这里会首先对其进行回顾.未完信息论信息论很大一部分会涉及到熵这个概念.在我以前的博文[熵简介]对于熵、相关熵的计算方式都进行了描述.(https://blog.csdn.net/u010945683/article/details/70213237)...

2018-04-18 18:13:41 426

原创 时空分析技术

在一些资料上看到的,对于时空数据索引以及分析的一些技术.时空数据索引技术HR-tree HR-tree给每个时间戳都存储了一个独立的R树,之后对于连续的两个R树之间,如果使用了相同的节点,那么只保留一个节点提高利用率,对时间点的查询效率较高.3DR-tree 3DR-tree基于R树来创建时空索引,将时间信息当做一般空间的另外一个维度,二维空间对象使用二维空间外包矩形表示,三维时空...

2018-04-18 16:06:21 3655 1

转载 关于知识管理和语义搜索的一些思考

原文地址:http://baojie.org/blog/2015/03/04/on-knowledge-management/这篇文章写得很有深度,值得深思知识管理的坑做知识管理最容易陷进去的坑就是满足1%用户的要求做知识管理最容易陷进去的另一个坑就是满足99%用户的要求知识库的构造中,当目标是满足全人类的需要,就没办法满足(几乎)任何人的需要。Wikidata, free...

2018-04-16 22:57:02 262

原创 知识图谱(二)——知识推理

知识推理是知识图谱中很重要的一部分,主要用于推理暗含的知识(丰富知识图谱),检查知识库的不一致(知识清洗)知识推理分类演绎推理从一般到特殊的过程.从一般性的前提出发,通过推导,得到具体描述或个别结论(三段论),结论已经蕴含一般性知识中,只是通过演绎推理揭示出来,不能得到新知识.归纳推理从特殊到一般的推理过程.从一类事物的大量特殊事例出发,去推出该类事物的一般性结论(数学归纳法)...

2018-04-16 15:17:17 13259 1

原创 HDF5-简介

HDF(Hierarchical Data Format)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发,后来由一个非盈利组织HDF Group支持.HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark.其版本包括了HDF4和现在大量用的HDF5,.虽然HDF Group仍然维护和支持HDF4,但是...

2018-04-13 17:05:59 17603

原创 自然语言处理——语义向量

将文本的符号表示转换为语义空间中的向量表示是现在量化比较语义的通用做法,这类方法通常都基于Harris的分布式假设,即在相似上下文中的词通常都有着相似的语义. 下面首先会对已有的一些文本语义表示模型进行介绍.表示形式Term-Document Matrix这种是最原始的一种语义衡量方法,主要用于文档检索,比较不同文档间的语义,其核心就是Term-Document Matrix...

2018-04-09 15:33:35 3132

原创 自然语言处理——注意力机制

本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

2018-04-07 17:24:21 787 1

原创 复杂事件处理(Complex Event Processing)

复杂事件处理复杂事件处理(CEP,Complex Event Processing)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事件,主要用于网络诈欺识别等防止犯罪,银行等金融行业防止,以及风险规避和营销决策...

2018-04-05 14:52:43 5657 1

原创 图数据库——Neo4j(三)Driver

Neo4j提供了应用程序接口,方便其他语言(Python、Java、JavaScript、C#)调用访问本篇以Python为例,首先要下载一个neo4j-driverpip install neo4j-driver访问过程有几个重要的部分,连接认证、会话事务连接认证访问Neo4j首先需要建立驱动对象实例URI通过URI访问,提供了两种协议其中b...

2018-04-04 12:07:59 4236

原创 Python3pip安装时出现UnicodeDecodeError

我在通过pip安装时遇到了UnicodeDecodeError和PermissionError。python版本是3.6.0。报错信息如下:解决办法改动pip程序中的配置d:\program files\python36\lib\site-packages\pip\compat__init__.py中 return s.decode('utf_8') 改为return...

2018-04-04 11:03:19 924

原创 图数据库——Neo4j(二)Cypher

Cypher是Neo4j专门用于图数据库的查询语言,类似于Oracle数据库的SQL语言,是一种声明式查询语言,只需要用户描述需要执行什么动作(match、insert等),而不需要描述具体怎么做,需要注意的是,只有在商业版中,Cypher的查询语句编译器才会生成高性能的查询动作. 同时Cypher项目中又建立了一个支持Spark的项目,Cypher for Apache SparkNeo4j...

2018-04-03 16:46:58 697

原创 知识图谱(一)——知识表示

知识表示框架 量化表示(嵌入表示) 本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

2018-04-02 21:23:44 1382

原创 图数据库——Neo4j(一)内部结构特点

本篇主要分析介绍Neo4j的内部结构特点.Neo4j主要通过构成图来存储数据,图中的数据包括节点、关系以及节点的属性和关系的属性,关系可以是双向的,也可以是只有单向的.以下是它的一些特点支持完整的ACID(原子性、一致性、隔离性和持久性)支持常数级时间复杂度的图遍历支持查询的数据导出为JSON和XLS格式支持通过浏览器图形化界面形式访问可以通过多种语言进行访问管理(Java、...

2018-04-02 15:55:43 2779

原创 异常值检测

为什么在数据集中,异常值(Outlier or Anomaly)作为不寻常的表征点,无利于后面算法对于数据集中模式的挖掘,甚至会极大地影响性能,或者直接用于一些异常检测的场景,如欺诈检测、安全检测等.异常值检测是数据清洗里非常重要的一步.定义一般可以利用聚类的思想,定义为分布稀疏且离密度高的群体较远的点通常异常值出现的原因有以下几种:数据收集过程出现问题,录入错误数据测...

2018-03-21 15:44:15 8206

原创 推荐系统简介

推荐系统评估准确度打分系统 设ruiruir_{ui}为用户uuu对物品iii的实际评分,r^uir^ui\hat r_{ui}为预测分,有如下误差判定标准: RMSEMAE=∑u,i∈T(rui−r^ui)2|T|−−−−−−−−−−−−−−−√=∑u,i∈T|rui−r^ui||T|(371)(371)RMSE=∑u,i∈T(rui−r^ui)2|T|MAE=∑u,i∈T|rui...

2018-03-15 18:03:56 111

翻译 Zipfian分布

最近在看Multi-View Learning of Word Embeddings via CCA这篇文章时,里面提到了一个陌生的概率分布模型.Zipfian distribution一个离散幂律概率分布,也就是常常提到的长尾模型.在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,是出现频率第三位的单词的3倍。 在Bro

2017-12-19 15:55:58 4447

原创 典型相关性学习

典型相关性分析(Canonical Correlation Analysis,CCA)的核心思想是:寻找两个变量场XX,YY对应的两组基向量WxW_x,WYW_Y,使得XX,YY在WxW_x,WYW_Y上投影后的结果最大程度地保持XX,YY之间的相关性一致.

2017-12-14 11:30:55 616

原创 特征工程

特征工程是一个任务驱动的经验性处理过程数据与特征处理特征表达 数值型类别型时间型文本型统计型组合特征数据的表示应当转换为更理想的格式数值型幅度调整/归一化Log等变化统计值max,min,mean,std离散化(一个特征变多个特征)(等距切分,等频切分)Hash分桶每个类别下对应的变量统计值histogram试试 数值型=>类别型...

2017-12-13 21:31:19 239

转载 参数服务器——分布式机器学习的新杀器

在大规模数据上跑机器学习任务是过去十多年内系统架构师面临的主要挑战之一,许多模型和抽象先后用于这一任务。从早期的MPI,到后来的Hadoop,乃至于目前使用较多的Spark,都曾被广泛应用于大规模机器学习处理任务。John Langford曾经在他的博客(机器学习领域最好的博客之一)上总结和对比了主流的分布式机器学习框架的抽象[1]: MPI Gradient Agg

2017-12-05 10:36:50 7249

提示
确定要删除当前文章?
取消 删除