数据挖掘
phantom66
这货很懒
展开
-
牛顿法,拟牛顿法,梯度下降,随机梯度下降
本文总结了牛顿法, 拟牛顿法,梯度下降和随机梯度下降的概念和计算公式.牛顿法首先考虑一维问题. 对于一个一维的函数,如果这个函数连续可微, 并且导数可以计算, 那么计算这个函数的最优解可以看成求解方程f′(x)=0f'(x)=0的根. 设F(x)=f′(x)F(x)=f'(x), 这个求解过程就变成了求解方程F(x)=0F(x)=0的过程. 使用上述迭代的方法就可以进行计算.迭代的方程为:原创 2016-04-15 22:47:40 · 3659 阅读 · 0 评论 -
数据归一化的方法总结
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化log函数转换atan函数转换z-score标准化z-sc原创 2016-04-15 16:13:22 · 9793 阅读 · 0 评论 -
非监督版bp网络
简介非监督版bp网络: 梯度下降 + 链式求偏导介绍信息前向传播, 误差反向传播推导忽略delta规则.以包含一层隐藏层的bp网络为例, 设输入层为x⃗ \vec x, 隐藏层为y⃗ \vec y, 输出层为z⃗ \vec z. 其中, 隐藏层中第i个神经元的输出为:yi=sigmoid(∑j=0Vijpj)\begin{align}y_{i} = sigmoid(\sum_{j=0} V_{i原创 2016-04-15 13:38:55 · 1089 阅读 · 0 评论 -
随机梯度下降
随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模的问题 。 要想扯清楚它,还得先谈谈梯度下降。 众所周知,每个优化问题会有一个目标函数f(w)f(\boldsymbol{w}), 梯度下降就是采用迭代的策略, 从初始点w1\boldsymbol{w}_1开始, 每次沿着目标函数转载 2016-04-12 21:03:30 · 3153 阅读 · 0 评论 -
推荐系统常用实验方法和主要测量指标
说明本文介绍评测一个推荐系统常用的实验方法和主要测量指标. 在<<推荐系统 技术,评估及高效算法>>第八章有介绍.评测推荐效果的实验方法离线实验往往是从日志系统中取得用户的行为数据,然后将数据集分成训练数据和测试数据,比如80%的训练数据和20%的测试数据(还可以交叉验证),然后在训练数据集上训练用户的兴趣模型,在测试集上进行测试。 优点:只需要一个数据集即可,不需要实际的推荐系统(实际的也不可能直原创 2015-12-20 14:58:55 · 2223 阅读 · 0 评论 -
scipy中的包及其作用
scipy有多个子包组成子包名描述cluster聚类算法constants物理和数学上的一些常量fftpack快速傅立叶变化integrate集成和常微分方程的求解interpolate插值和平滑样条函数io输入和输出linalg线性代数ndimage多维图片处理odr正交距离回归optimize优化与根查找signal信号处理sparse稀疏矩阵与相关处理spatial空间原创 2015-12-20 14:54:41 · 4064 阅读 · 0 评论 -
sklearn常用工具箱使用
一 监督学习1.1 逻辑斯蒂回归(Logistic Regression)from sklearn.linear_model import LogisticRegression clf = LogisticRegression() clf = clf.fit(X, y) result = clf.predict_proba(X_test)1.2线性支持向量机(Linear SVM)from s原创 2015-12-20 14:49:15 · 1488 阅读 · 0 评论 -
数据挖掘知识框架
本文详细介绍数据挖掘知识框架,主要从基础、统计、编程、机器学习、文本挖掘、自然语言处理、可视化、大数据、数据获取、数据清理、数据转换、工具箱等几个方面介绍数据挖掘工程师所需要具备的知识。原创 2015-05-26 15:49:58 · 3916 阅读 · 0 评论 -
机器学习中用到的一些距离
机器学习算法中常常需要使用数据之间的距离来标识两组数据之间的差异,比如k-近邻算法等。本文将介绍经常使用几种距离的概念、计算公式和应用。 这些距包括: 1. 闵可夫斯基距离 2. 欧几里得距离 3. 曼哈顿距离 4. 切比雪夫距离 5. 马氏距离 6. 余弦相似度 7. 皮尔逊相关系数 8. 汉明距离 9. 杰卡德相似系数 10. 编辑距离 11. DTW 距原创 2015-04-10 13:44:29 · 1981 阅读 · 0 评论 -
从分类,排序,top-k多个方面对推荐算法稳定性的评价
介绍论文名: “classification, ranking, and top-k stability of recommendation algorithms”. 本文讲述比较推荐系统在三种情况下, 推荐稳定性情况. 与常规准确率比较的方式不同, 本文从另一个角度, 即推荐算法稳定性方面进行比较.详细参与比较的推荐算法包括:baseline传统基于用户传统基于物品oneSlopes原创 2016-04-23 13:44:57 · 9135 阅读 · 0 评论