机器学习和大数据
文章平均质量分 57
simonGeek
Geek技术 Share想法 Update思想 Download成果
展开
-
【技术晨读】缓存更新的套路
看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作会把数据再装载的缓存中。然而,这个是逻辑是错误的。试想,两个并发操作,一个是更新操作,另一个是查询操作,更新操作删除缓存后,查询操作没有命中缓存,先把老数据读出来后放到缓存中,然后更新操作更新了数据库。于是,在缓存中的数据还是老的数据,导致缓存中的数据是脏的,而且还一直这样脏下去了。我不知道为什么这么多人用的都是这转载 2016-07-29 14:26:43 · 1277 阅读 · 0 评论 -
梯度下降算法以及与线性回归模型的结合阐述
梯度下降算法在机器学习领域是非常重要的一个解决问题的方法,目的就是基于历史数据,拟合出一个理想的模型。一、梯度下降算法阐述1.1 梯度下降阐述梯度下降算法是对损失函数(cost function)进行求导,最后目标是获得使损失函数的导数最小或者相对最小的参数值。具体分析,损失函数 J(θ0,θ1),图形化表示损失函数如图:梯度下降算法的目的就是将(θ0,θ1)对应的 J(θ0,θ1)从较高的地方,...原创 2018-03-04 17:44:54 · 1093 阅读 · 0 评论 -
在AWS上配置深度学习主机
介绍Amazon EC2 P2 实例p2.xlarge 是一种非常适合深度学习的云服务器,它配备了 12G 显存的 Tesla K80 显卡,4核 CPU,60G 内存,以及 500M 的网速。如果你还嫌不够,可以选择它的8倍和16倍的版本。注册账号首先我们需要注册一个 aws 账号,从刚才的地址可以注册,需要 visa 或 mastercard 信用卡。注转载 2018-02-03 11:02:18 · 6694 阅读 · 0 评论 -
初识推荐系统
亚马逊的“与您浏览过的商品相关的推荐“、天猫首页的”猜你喜欢“、网易云音乐的”私人FM“等功能将一个词带入大家的视野:推荐系统。通过大家的使用及体会,更加感觉推荐系统的重要性。以下就是笔者对推荐系统的一些粗浅的理解,整理成文,供参考。1.推荐系统为什么存在正所谓”知其然,更需知其所以然“,在聊“推荐系统是什么”这个问题之前,我们更应该聊一下“推荐系统为什么存在”。推荐系统解决的是人转载 2017-10-16 16:00:27 · 565 阅读 · 0 评论 -
机器学习名词解释(train & valid & test)(accuracy & precision & recall)
train? valid? or test?机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled data)。很多入门的朋友很快就会遇见模型训练和测试这两个阶段,进而也就了解到带标签数据是要被划分成两个部分的:训练集(training set)与测试集(test set)。这两个概念也很直观,大部分朋友非常快就能接受。可转载 2017-10-11 09:41:04 · 24008 阅读 · 4 评论 -
机器学习-5 多变量的梯度下降 Gradient Descent For Multiple Variables
多变量的梯度下降 Gradient Descent for Multiple Variables梯度下降等式的本身是完全相同的形式,我们只是需要强调一下多变量('n' features)的问题换句话说:下面的图片比较了梯度下降在单变量和多变量的两种场景:梯度下降实践 I-特征尺度我们可以通过将输入值控制在一个相同的范围内来加速梯度下降的速原创 2017-03-07 14:28:31 · 5035 阅读 · 0 评论 -
机器学习-3 cost function 代价函数
1、代价函数简介代价函数是用来衡量假设函数(hypothesis function)的准确性,具体衡量指标是采用平方差的方式计算。例如,假设函数是 hθ(xi) = θ0 + θ1yi,那么,代价函数就是:其中,m是样本数量。同时,这个函数还可以称为"Squared error function" 或者 "Mean squared error”,同时,除以2的原因是为了方便之后的梯度下降,原创 2017-02-24 09:25:05 · 5403 阅读 · 1 评论 -
乐观锁和悲观锁简介
引言为什么需要锁(并发控制)? 在多用户环境中,在同一时间可能会有多个用户更新相同的记录,这会产生冲突。这就是著名的并发性问题。典型的冲突有:丢失更新:一个事务的更新覆盖了其它事务的更新结果,就是所谓的更新丢失。例如:用户A把值从6改为2,用户B把值从2改为6,则用户A丢失了他的更新。脏读:当一个事务读取其它完成一半事务的记录时,就会发生脏读取转载 2017-02-14 20:43:49 · 2114 阅读 · 0 评论 -
机器学习-2 模型表示
机器学习中,首先遇到的概念就是模型(Model),模型有一个入口一个出口,x(i) 表示输入变量或者输入特征,y(i) 表示输出或想要预测的目标变量,一组(x(i), y(i)) 被成为一个训练样本(training example),所有被使用的用于训练模型的数据集(x(i), y(i)) (i=1,2,3,..., m)被称为一个训练集或训练样本集(training set),其中,i只原创 2017-02-22 11:01:24 · 1212 阅读 · 0 评论 -
机器学习-4 多特征 Multiple Features
在前面一直介绍的是单变量或者双变量的线性回归方程,在本篇文章中,开始介绍多变量的回归方程,带有多个变量的线性回归,又称为“multivariatelinear regression”。下面就来介绍一下,带有任意多个变量的方程式的写法:根据上面的描述,多变量的假设方程h就可以写成如下:为了更加形象的阐述和理解上述方程,可以将这个假设函数想象成根据房子的一些特征预测房价原创 2017-03-02 09:53:12 · 3231 阅读 · 0 评论 -
机器学习-1 初步认识机器学习、监督学习和非监督学习
一直对机器学习大数据方面的技术感兴趣,平时也在持续关注相关信息。但是,经过很长一段时间之后,发现,这种碎片化的学习只能停留在浅尝辄止,知道、听说过和了解的基础上,很难对技术有一个系统化的认识、全面而深入的学习,痛定思痛,计划使用三个月的时间,对机器学习进行系统化的学习,以期达到融会贯通等目的。在这里,也欢迎感兴趣的同学一起学习,将每天的学习内容分享,一来可以督促坚持,二来可以相互分享,共同进步。另原创 2017-02-21 10:36:25 · 961 阅读 · 0 评论 -
Hbase常识及适合场景
当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量。并且如果面对大数据库,pt级别的数据,这种浪费更是严重的,那么我们该使用是什么数据库?hbase数个不错的选择,那么我们对于hbase还存在下列问题:1.Column Family代表什么?转载 2016-12-15 11:00:20 · 1644 阅读 · 0 评论 -
网站统计中的数据收集原理及实现-埋点统计
网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理,并一步一步实际搭建一个实际的数据收集系统。数据收集原理分析简单来说,网站统计分析工具需要收集到用户浏览目标网站的行为(如打开某网页、点转载 2016-12-05 12:07:39 · 23883 阅读 · 3 评论 -
MAC系统中搭建Spark大数据平台(包括Scala)
MAC系统中搭建Spark大数据平台(包括Scala)总体介绍:大家Spark大数据平台,包括三部分内容:JDK,Scala,Spark这三者是依次依赖的关系,Spark依赖于Scala环境(Spark是使用Scala语言开发),Scala语言必须运行与JVM上,所以,Scala依赖于Java环境。1、JDK安装确保你本地以及安装了 JDK 1.5 以上版本,并且设置了 JAV原创 2016-11-01 21:12:51 · 5339 阅读 · 0 评论 -
Mac下安装Spark开发环境(Linux系统可参照)
Mac下安装Spark开发环境(Linux系统可参照)之前一直使用VNC在远程集群上进行Spark程序开发,但是网络的不稳定以及集群时常升级让人头疼。在这里我在自己的Mac上搭建单机Spark开发环境,作为学习开发已经足够。Linux系统用户也可以参考。一、本机环境Macbook pro retina with 8G memory二、准备转载 2016-10-31 21:21:14 · 994 阅读 · 0 评论 -
这可能是最容易上手的 NumPy教程
Oh the amazing things you can do with Numpy.NumPy is a blazing fast maths library for Python with a heavy emphasis on arrays. It allows you to do vector and matrix maths within Python and as a lot o...转载 2018-12-10 11:13:05 · 434 阅读 · 0 评论