- 博客(13)
- 资源 (58)
- 收藏
- 关注
原创 简化数据之SVD
奇异值分解(Singular Value Decomposition,SVD),核心是一次分解两大作用,一次分解是指矩阵分解,两大作用是简化数据和推荐系统。
2018-01-25 16:58:08 405
原创 数据简化之PCA
降维,降低维度(dimensionality reduction),将高维数据经过技术处理降低到低纬度下,数据更容易进行处理,其相关特性更容易在数据中明显的显示出来。对数据简化的好处:1 使得数据集更容易使用2 降低很多算法的开销3 去除噪声4 使得结果易懂本文了解的降维技术叫主成分分析(Principal Component Analysis,PCA)在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差大的方向,第二个新
2018-01-24 21:22:31 835
原创 FP-growth算法高效发现频繁项集
FP-growth与Apriori比较,优点:性能要比Apriori好两个数量级以上,可以高效地发现频繁项集。缺点:不能用于发现关联规则。FP代表频繁模式(Frequent Pattern),搜索引擎公司的研究人员使用了FP-growth算法,他们通过查看互联网上的用词来找出经常在一块出现的词对。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会 扫描数据集判定给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快FP-gro
2018-01-22 21:06:56 1007
原创 使用Apriori进行关联分析
最典型的关联分析的案例就是沃尔玛的“啤酒与尿布”的故事,这个看起来完全不搭嘎的商品在经过对过去一年的数据分析后发现周四晚上奶爸们会来超市采购尿布同时顺手买走自己喜欢的啤酒,于是超市保证当天的备货充足并显眼的摆在一起,就可以创造销量奇迹。大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。
2018-01-19 23:55:55 1304
原创 k-均值聚类
聚类是一种无监督的学习,它将相似的对象归到同一个簇中,簇内的对象越相似,聚类的效果越好。聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样,是数据一种“自主”分类,属于无监督学习的范畴。聚类在这里要解决的2大问题是:1 怎么分? 2 分到哪里去?K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心 (centroid),即簇中所有点的中心来描述。通过这个定义可以解答我们上面的问题:1 怎么分? 根据距离分,质心是中心,它将是这一簇的中心点。2 分到哪里去
2018-01-17 18:17:01 788
原创 树回归
前面有篇讲过ID3决策树对标称型分类,其存在两大缺点:1 每个特性只能参与一次切分,对后续切分不再起作用。2 不能直接处理连续型特性。本篇介绍的树回归,本质上也是通过二叉树的方式来进行分类回归,但是解决了ID3决策树中的这些缺点。树回归分为3部分:树结构、叶子算法、树修剪。树结构是骨干,描述了你的树是个什么样子的树,维护所有的迭代,有哪些重要的节点,预留了哪些需要实现的算法。叶子算法是核心算法,每个叶子最终维护的内容是什么,如何进行误差判断和择优。树修剪是树回归完成后是否满足需要,对枝叶进
2018-01-16 17:21:39 459
原创 线性回归
准备工作,需要了解矩阵的一些概念,不熟悉的需要自预习:1矩阵转置2矩阵内积3矩阵的代数余子式在n阶行列式中,把元素aₒₑi所在的第o行和第e列划去后,留下来的n-1阶行列式叫做元素aₒₑi的余子式,记作Mₒₑ,将余子式Mₒₑ再乘以-1的o+e次幂记为Aₒₑ,Aₒₑ叫做元素aₒₑ的代数余子式。4矩阵的行列式|A|https://zhidao.baidu.com/question/341289987....
2018-01-15 21:22:48 1023
原创 分类器集成和非均衡分类
本文主要分两大部分:弱学习器集成为强学习器,重点介绍了AdaBoosting非均衡分类器如何调优,重点介绍了ROC和代价函数
2018-01-11 22:03:35 1363
原创 支持向量机-(2)
上一篇介绍了线性可分的数据如何利用支持向量机做超平面,如果非线性的数据能否利用支持向量机来划分? 结果是肯定的,需要引入核函数。核函数:在当前空间无法做线性划分时往往会映射到一个更高维的空间,在新的高维度空间中可以线性的概率将大大增加。这种从某个特征空间到另一个特征空间的映射是通过核函数来实现的。核函数可以被理解为这种转化的封装和解封装的过程,它能把数据从很难处理的方式转化成容易被处理的方式。
2018-01-10 18:01:52 417
原创 支持向量机-(1)
要开始SVM和SMO之前需要掌握以下几个概念:1超平面 将数据分割成两部分,一部分-1,一部分+1,最优的分割方式这个公式被称为超平面,n维的超平面是n-1维的,所以2维的超平面是线,3维的超平面是面,以此类推。 超平面表现方式为:f(x)=WX+b,求超平面的过程也就是求W和b的过程,其中W称为法向量,b称为截距。 2支持向量 距离超平面距离最近的两边的...
2018-01-09 17:20:36 699
原创 Logistic回归(2)
有了上一篇Logistics的核心代码和知识背景后,学习这个案例本身会很简单,这个案例除开加强了logistics算法的理解和实用价值之外,最大的意义在于教会我们在现实数据不理想有部分缺失的情况下我们要如何处理训练集。一般分两种情况,如果是结果数据丢失,这条数据就可以放弃了,因为无论代价多么昂贵,没有结果的数据我们不知道对齐如何分析。如果是特性数据丢失,一般有以下方法进行处理和使用:1 利用该特性的均值来替换2 利用特殊值来替换3 利用相似样本的该特性来替换4 利用其他的机器学习算法来预测该特性
2018-01-06 18:49:11 331
原创 Logistic回归(1)
什么是回归?假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。 涉及到回归问题,我们借助Sigmoid函数来处理,Sigmoid函数:x=0时,函数值是0.5,x越大函数值越趋近于1,x越小函数值越趋近于0。如果x的刻度足够大Sigmoid函数也可以堪称一个单位阶跃函数。之所以采用Sigmoid来解决回归问题,是因
2018-01-02 01:20:38 1497
ChaosBlade项目外部分享.pdf
2020-07-22
深度学习在线下场景的探索与实践-云栖大会.pdf
2020-07-21
集成智能接入网关APP:优化企业级移动办公网络.pdf
2020-07-21
运营商如何实现大型企业大型企业应用上用云.pdf
2020-07-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人