自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

咖啡男孩之SRE之路

Spinnaker_CN的布道者

  • 博客(13)
  • 资源 (58)
  • 收藏
  • 关注

原创 机器学习实践总结

机器学习的目的、必备知识、分类、学习步骤、降维技术、常用算法和结果分析

2018-01-28 18:12:49 2948

原创 简化数据之SVD

奇异值分解(Singular Value Decomposition,SVD),核心是一次分解两大作用,一次分解是指矩阵分解,两大作用是简化数据和推荐系统。

2018-01-25 16:58:08 405

原创 数据简化之PCA

降维,降低维度(dimensionality reduction),将高维数据经过技术处理降低到低纬度下,数据更容易进行处理,其相关特性更容易在数据中明显的显示出来。对数据简化的好处:1 使得数据集更容易使用2 降低很多算法的开销3 去除噪声4 使得结果易懂本文了解的降维技术叫主成分分析(Principal Component Analysis,PCA)在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差大的方向,第二个新

2018-01-24 21:22:31 835

原创 FP-growth算法高效发现频繁项集

FP-growth与Apriori比较,优点:性能要比Apriori好两个数量级以上,可以高效地发现频繁项集。缺点:不能用于发现关联规则。FP代表频繁模式(Frequent Pattern),搜索引擎公司的研究人员使用了FP-growth算法,他们通过查看互联网上的用词来找出经常在一块出现的词对。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会 扫描数据集判定给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快FP-gro

2018-01-22 21:06:56 1007

原创 使用Apriori进行关联分析

最典型的关联分析的案例就是沃尔玛的“啤酒与尿布”的故事,这个看起来完全不搭嘎的商品在经过对过去一年的数据分析后发现周四晚上奶爸们会来超市采购尿布同时顺手买走自己喜欢的啤酒,于是超市保证当天的备货充足并显眼的摆在一起,就可以创造销量奇迹。大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。

2018-01-19 23:55:55 1304

原创 k-均值聚类

聚类是一种无监督的学习,它将相似的对象归到同一个簇中,簇内的对象越相似,聚类的效果越好。聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样,是数据一种“自主”分类,属于无监督学习的范畴。聚类在这里要解决的2大问题是:1 怎么分? 2 分到哪里去?K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心 (centroid),即簇中所有点的中心来描述。通过这个定义可以解答我们上面的问题:1 怎么分? 根据距离分,质心是中心,它将是这一簇的中心点。2 分到哪里去

2018-01-17 18:17:01 788

原创 树回归

前面有篇讲过ID3决策树对标称型分类,其存在两大缺点:1 每个特性只能参与一次切分,对后续切分不再起作用。2 不能直接处理连续型特性。本篇介绍的树回归,本质上也是通过二叉树的方式来进行分类回归,但是解决了ID3决策树中的这些缺点。树回归分为3部分:树结构、叶子算法、树修剪。树结构是骨干,描述了你的树是个什么样子的树,维护所有的迭代,有哪些重要的节点,预留了哪些需要实现的算法。叶子算法是核心算法,每个叶子最终维护的内容是什么,如何进行误差判断和择优。树修剪是树回归完成后是否满足需要,对枝叶进

2018-01-16 17:21:39 459

原创 线性回归

准备工作,需要了解矩阵的一些概念,不熟悉的需要自预习:1矩阵转置2矩阵内积3矩阵的代数余子式在n阶行列式中,把元素aₒₑi所在的第o行和第e列划去后,留下来的n-1阶行列式叫做元素aₒₑi的余子式,记作Mₒₑ,将余子式Mₒₑ再乘以-1的o+e次幂记为Aₒₑ,Aₒₑ叫做元素aₒₑ的代数余子式。4矩阵的行列式|A|https://zhidao.baidu.com/question/341289987....

2018-01-15 21:22:48 1023

原创 分类器集成和非均衡分类

本文主要分两大部分:弱学习器集成为强学习器,重点介绍了AdaBoosting非均衡分类器如何调优,重点介绍了ROC和代价函数

2018-01-11 22:03:35 1363

原创 支持向量机-(2)

上一篇介绍了线性可分的数据如何利用支持向量机做超平面,如果非线性的数据能否利用支持向量机来划分? 结果是肯定的,需要引入核函数。核函数:在当前空间无法做线性划分时往往会映射到一个更高维的空间,在新的高维度空间中可以线性的概率将大大增加。这种从某个特征空间到另一个特征空间的映射是通过核函数来实现的。核函数可以被理解为这种转化的封装和解封装的过程,它能把数据从很难处理的方式转化成容易被处理的方式。

2018-01-10 18:01:52 417

原创 支持向量机-(1)

要开始SVM和SMO之前需要掌握以下几个概念:1超平面        将数据分割成两部分,一部分-1,一部分+1,最优的分割方式这个公式被称为超平面,n维的超平面是n-1维的,所以2维的超平面是线,3维的超平面是面,以此类推。        超平面表现方式为:f(x)=WX+b,求超平面的过程也就是求W和b的过程,其中W称为法向量,b称为截距。 2支持向量        距离超平面距离最近的两边的...

2018-01-09 17:20:36 699

原创 Logistic回归(2)

有了上一篇Logistics的核心代码和知识背景后,学习这个案例本身会很简单,这个案例除开加强了logistics算法的理解和实用价值之外,最大的意义在于教会我们在现实数据不理想有部分缺失的情况下我们要如何处理训练集。一般分两种情况,如果是结果数据丢失,这条数据就可以放弃了,因为无论代价多么昂贵,没有结果的数据我们不知道对齐如何分析。如果是特性数据丢失,一般有以下方法进行处理和使用:1 利用该特性的均值来替换2 利用特殊值来替换3 利用相似样本的该特性来替换4 利用其他的机器学习算法来预测该特性

2018-01-06 18:49:11 331

原创 Logistic回归(1)

什么是回归?假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。 涉及到回归问题,我们借助Sigmoid函数来处理,Sigmoid函数:x=0时,函数值是0.5,x越大函数值越趋近于1,x越小函数值越趋近于0。如果x的刻度足够大Sigmoid函数也可以堪称一个单位阶跃函数。之所以采用Sigmoid来解决回归问题,是因

2018-01-02 01:20:38 1497

2.阿里云异地多活与冲突解决.pdf

不管哪种数据库,异地多活一直都是给头疼的问题,让我们一起看下案例云在redis异地多活方面是怎么解决的。

2020-07-22

ChaosBlade项目外部分享.pdf

阿里云ChaosBlade项目分享,了解ChaosBlade运行原理以及阿里这方面想要打造的生态圈,ChaosBlade解决了混沌工程中故障注入部分的实现。

2020-07-22

数智化时代下购物中心运营模式新探索.pdf

2019云栖大会-数智化时代下购物中心运营模式新探索,又是一片关于新零售+人工智能的实践贴,受益匪浅。

2020-07-21

视频内容理解的研究与实践.pdf

2019云栖大会-视频内容理解的研究与实践,讲解了多维视频的发展历程和AI媒体的系统基本组成,推荐流媒体行业必读。

2020-07-21

深度学习在线下场景的探索与实践-云栖大会.pdf

2019云栖大会-深度学习在线下场景的探索与实践,讲真,我没怎么看到这一篇文章,主要是对硬件,特别是智能芯片这一领域了解的太少了。

2020-07-21

容器混合云趋势与展望.pdf

2019云栖大会-容器混合云趋势与展望,这一片是我在现场听的,rancher大中华总经理为你讲解容器混合云的前景。

2020-07-21

人工智能赋能升级线下零售.pdf

2019云栖大会-人工智能赋能升级线下零售,人工智能领域下的新零售,看完后不禁感叹,科技改变商业,科技改变生活。

2020-07-21

千万级用户-亿级请求的平台架构演变.pdf

2019云栖大会-企业应用迁云的全链路评估方案,比较硬的一篇文章,讲述了随着用户数发展,架构优化优化再优化的过程

2020-07-21

企业应用迁云的全链路评估方案.pdf

2019云栖大会-企业应用迁云的全链路评估方案,企业上云的痛点和步骤,帮助我们了解迁移到云端遇到的问题以及解决方案。

2020-07-21

企业级数据库敏捷研发模式.pdf

2019云栖大会-企业级数据库敏捷研发模式,敏捷开发不是新词,但是数据库敏佳开发确实让人听完眼前一亮的感觉。

2020-07-21

面向失败设计.pdf

2019云栖大会-面向失败设计,最爱面向失败的设计理念,什么都不能相信,只能相信自己的架构,所以一起来学习下吧

2020-07-21

利用ADB打造游戏行业新一代实时数据运营平台.pdf

2019云栖大会-利用ADB打造游戏行业新一代实时数据运营平台,架构比较好理解,属于了解实时分析架构的入门实战材料。

2020-07-21

集成智能接入网关APP:优化企业级移动办公网络.pdf

2019云栖大会-集成智能接入网关APP:优化企业级移动办公网络,让网络更简单,让网络更基础,这是对未来网关APP的基本要求。

2020-07-21

基于数据湖的精准广告投放系统技术解密.pdf

2019云栖大会-基于数据湖的精准广告投放系统技术解密,广告时代已过去,窄告时代已来临,如何利用技术手段做好精准营销。

2020-07-21

基于视觉推理的视频理解.pdf

2019云栖大会-基于视觉推理的视频理解,了解图神经网络的基本模型和应用场景,其中推理模型属于图神经里比较高深的知识点。

2020-07-21

混合云网络2.0:云网一体 助力企业平滑上云.pdf

2019云栖大会-混合云网络2.0:云网一体 助力企业平滑上云,大家一起来了解下混合云正确打开方式吧

2020-07-21

关于网络嵌入和图卷积神经网络的一些思考.pdf

2019云栖大会-关于网络嵌入和图卷积神经网络的一些思考,清华大学崔鹏关于卷积网络深蹲学习领域的技术分享。

2020-07-21

分析型数据库标准发展与行业观察.pdf

2019云栖大会-分析型数据库标准发展与行业观察,除开关系型、NoSql型、时序型,我们又接触的新一类数据库类型。

2020-07-17

低成本自动三维室内重建系统.pdf

2019云栖大会-低成本自动三维室内重建系统,房屋拍卖,企业实景认证,都需要这种黑科技,大家一起来了解下吧。

2020-07-17

传统数据库DBA到开源的技能和心理切换.pdf

2019云栖大会-传统数据库DBA到开源的技能和心理切换,面向开源,拥抱开源,提升自己,面对调账,DBA成长之路。

2020-07-17

超大规模图神经网络实践.pdf

2019云栖大会-超大规模图神经网络实践,大家一起来了解阿里巴巴人工智能经济体系以及面临的巨大挑战。

2020-07-17

阿里云Elasticsearch2.0发布.pdf

2019云栖大会-阿里云Elasticsearch2.0发布,推出云端ES的新特性,鼓励大家使用公有云的Paas服务

2020-07-17

阿里巴巴研发效能提升及业务创新实践.pdf

2019云栖大会-阿里巴巴研发效能提升及业务创新实践,一篇比较抽象的文章,从理论上讲解了如何提高企业效能的方法论。

2020-07-17

阿里巴巴神龙(X-Dragon)架构演进之路.pdf

2019云栖大会-阿里巴巴神龙(X-Dragon)架构演进之路,让我们一起来窥探阿里巴巴虚拟化架构飞升之路。

2020-07-17

Tableau带来实时数仓产品全新的洞察能力.pdf

2019云栖大会-Tableau带来实时数仓产品全新的洞察能力,数据文化的构建是企业转型数字化的润滑剂

2020-07-17

MPEG和AVS视频编码标准最新动态圆桌会.pdf

2019云栖大会-MPEG和AVS视频编码标准最新动态圆桌会,浙江大学教授与您一起分享视频编码领域最新黑科技。

2020-07-17

卓诗尼破局”数智“转型.pdf

2019云栖大会-卓诗尼破局”数智“转型,又是数智主力新零售的经典案例,而且案例讲解的很技术、很透彻。

2020-07-21

中间件助力云途时代应用上云.pdf

2019云栖大会-中间件助力云途时代应用上云,EDAS、SpringCloudAlibaba、PTS等阿里一些列黑科技助力应用上云。

2020-07-21

智能化压测-应用稳定性基石.pdf

2019云栖大会-智能化压测-应用稳定性基石,给的方法论比较多,也很具备参考价值,推荐大家学习~~。

2020-07-21

运营商如何实现大型企业大型企业应用上用云.pdf

2019云栖大会-运营商如何实现大型企业大型企业应用上用云,文章还是透露着传统行业那种朴实,对准备上云的企业有帮助,已经上云的可以不看

2020-07-21

云网络开放生态.pdf

2019云栖大会-云网络开放生态,阿里云不做Saas,阿里云让大家做更好的Saas,提供了一套混合云网络生态。

2020-07-21

云网络发展历程和未来展望.pdf

2019云栖大会-云网络发展历程和未来展望,云网一体化,网络AI话,内容还是空泛了些,名号上给足了胃口,但是内容没有讲透。

2020-07-21

云上应用生态全栈IPv6演进.pdf

2019云栖大会-云上应用生态全栈IPv6演进,本届大会关于IPV6为数不多的题材,我个人还是有点失望,毕竟ipv6这么火爆。

2020-07-21

云上应用高可用防护体系.pdf

2019云栖大会-云上应用高可用防护体系,了解阿里安全团队的这一套体系,对于系统架构师来说是一种升华,至少我学会很多。

2020-07-21

云上服务:超越硬件的稳定性.pdf

2019云栖大会-云上服务:超越硬件的稳定性,又是一篇现场聆听的课题,对于我这种软件工程师来说不明觉厉

2020-07-21

业务引领的DevOps.pdf

2019云栖大会-业务引领的DevOps,挂着Devops的名,其实内容比较宽泛,可能因为篇幅的原因,没有把这一领域讲透。

2020-07-21

万物互联时代的虚拟化技术.pdf

2019云栖大会-万物互联时代的虚拟化技术,一起来了物虚拟化的原因和背景知识,如何云化才是解决问题的关键。

2020-07-21

图像搜索与识别在大规模场景中的研究与实践.pdf

2019云栖大会-图像搜索与识别在大规模场景中的研究与实践,达摩院资深算法专家分享,满满干货,不要错过。

2020-07-21

图模型在阿里安全中的实践.pdf

2019云栖大会-图模型在阿里安全中的实践,人工智能在用户安全领域的应用,属于AI感知领域的应用场景

2020-07-21

数智化运营中的数据中台构建解析.pdf

2019云栖大会-数智化运营中的数据中台构建解析,2019年IT界最火的词可能是中台,本篇教你如何打造数据中台。

2020-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除