![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
猿与禅
think more , write less , more value !
君子藏器于身,待时而动,争其必然,顺其自然
展开
-
推荐系统-原理及实现(协同过滤)
功能提高商品的销量 提升用户满意度和忠诚度 更好地了解用户需求协同过滤利用已有的用户群过去的行为或者意见预测当前用户最可能喜欢哪些东西或者对哪些东西感兴趣。输入:用户-物品评分矩阵 输出:当前用户对物品喜欢和不喜欢程度的预测数值 和n项的推荐物品的列表(不包含当前用户已经购买过的物品)实现方式 基于用户的最近邻 前提/假设 用户的偏好不会随着时间变化输入的评分数据集和当前用户ID 找转载 2017-10-22 18:50:08 · 1672 阅读 · 0 评论 -
深度学习-框架-目录及地址
Theanohttps://github.com/Theano/TheanoTensorFlowhttps://github.com/tensorflow/tensorflowTorchhttps://github.com/torch/torch7Caffehttps://github.com/BVLC/caffeMXNethttps://github.com/dmlc/mxnet/releases原创 2017-05-24 11:08:50 · 361 阅读 · 0 评论 -
spark-MLlib-架构
sparkmlib-架构转载 2017-03-24 16:49:47 · 976 阅读 · 2 评论 -
数据挖掘-归一化
概念所谓归一化,就是将有量纲的表达式,经过变换,化为无量纲的表达式, 成为标量,降低变量单位不同 (导致数值相差太大)对模型的影响实现方式1、xi/sum(x)贴一段项目中自己写的scala代码:/** * 对数字序列字符串做归一化处理 * @param arrStr * @return */ def normalizArrStrDelimitedByComma原创 2017-05-17 16:05:07 · 1003 阅读 · 0 评论 -
数据挖掘-目录-特征处理(feature)
BinarizerBucketizerChiSqSelectorCountVectorizerDCTElementwiseProductHashingTFIDFInteractionMinMaxScalerNGramNormalizerOneHotEncoderPCAPolynomialExpansionQuantileDiscretizerSQLTransformerStandardScalerS转载 2017-03-23 17:35:06 · 1172 阅读 · 0 评论 -
数据挖掘-开发流程
数据收集 用户访问行为数据 业务数据 爬虫 第三方数据预处理 数据清洗和转换 将类别数据->数值(1-of-k) 文本提取数据 (词袋法或TF-IDF) 处理图像或音频(像素 声波 音频 振幅<傅里叶变换>) 数值数据->类别数据,如年龄分段 对数转换 特征正则化、标准化,保证同转载 2017-10-22 08:27:36 · 641 阅读 · 0 评论 -
数据挖掘-目录-推荐(recommendation)
matrix factorization Alternating Least Squares (ALS)原创 2017-03-23 17:12:15 · 667 阅读 · 0 评论 -
数据挖掘-目录-分类器(classification)
GLMNaiveBayesSupport Vector Machines Stochastic Gradient Descent LogisticRegressionDecisionTree CART Hunt ID3 C4.5 KNIMEGradient-Boosted TreesMultilayerPerceptronRandomForest原创 2017-03-23 16:59:22 · 1750 阅读 · 0 评论 -
数据挖掘-目录-正则化方法
Ridge Regression Least Absolute Shrinkage Selection Operator ( LASSO )弹性网络( Elastic Net )原创 2017-03-24 13:41:27 · 590 阅读 · 1 评论 -
数据挖掘-目录-集成算法
Boosting Bootstrapped Aggregation ( Bagging ) AdaBoost 堆叠泛化( Stacked Generalization , Blending) 梯度推进机( Gradient Boosting Machine, GBM ) 随机森林( Random Forest )。原创 2017-03-24 13:16:01 · 557 阅读 · 1 评论 -
数据挖掘-目录-降维(Dimensionality Reduction)
EigenValueDecomposition(特征值分解) SingularValueDecomposition(奇异值分解) Principal Component Analysis(主成分分析)原创 2017-03-24 00:15:57 · 423 阅读 · 0 评论 -
数据挖掘-目录-线性代数( linear algebra)
Basic Linear Algebra SubprogramsCholeskyDecompositiondistributedBlockMatrixCoordinateMatrixDistributedMatrixIndexedRowMatrixRowMatrixEigenValueDecompositionMatricesSingularValueDecompositionVectors原创 2017-03-23 19:36:47 · 963 阅读 · 0 评论 -
数据挖掘-目录-回归分析(regression)
AFTSurvivalRegressionDecisionTreeRegressorGBTRegressorIsotonicRegressionLinearRegressionRandomForestRegressorGeneralizedLinearAlgorithmGLMRegressionModelIsotonicRegressionLabeledPointLassoLinearRegress原创 2017-03-23 17:57:53 · 829 阅读 · 0 评论 -
数据挖掘-目录-聚类(clustering)
K-means bisecting k-means DBSCANMAXGaussianMixtureLatent Dirichlet AllocationGaussianMixturePowerIterationClustering原创 2017-03-23 17:07:03 · 834 阅读 · 0 评论 -
数据挖掘-目录-最优化算法(optimization)
GradientDescent (梯度下降算法)L-BFGS(限制内存BFGS)NNLS(非负最小二乘)原创 2017-03-24 00:10:56 · 1122 阅读 · 0 评论 -
数据挖掘-目录-评估
AreaUnderCurveBinaryClassificationMetricComputersBinaryConfusionMatrixBinaryLabelCounterBinaryClassificationMetricsMulticlassMetricsRankingMetricsRegressionMetricsBinaryClassificationEvaluatorEvaluator原创 2017-03-24 00:19:51 · 429 阅读 · 0 评论 -
数据挖掘-目录-loss
AbsoluteErrorLogLossLossLossesSquaredError原创 2017-03-24 00:22:58 · 491 阅读 · 0 评论 -
数据挖掘-目录-impurity
Entropy Gini Impurities Impurity Variance原创 2017-03-24 00:24:53 · 593 阅读 · 1 评论 -
数据挖掘-目录-基本统计
correlation Correlation PearsonCorrelation SpearmanCorrelationdistribution MultivariateGaussianKernelDensityMultivariateOnlineSummarizerMultivariateStatisticalSummaryKolmogorovSmirnov原创 2017-03-23 18:57:36 · 803 阅读 · 0 评论 -
数据挖掘-目录-人工神经网络 (Artificial Neural Network)
感知器神经网络( Perceptron Neural Network )反向传递( Back Propagation ) Hopfield 网络自组织映射( Self-Organizing Map, SOM )学习矢量量化( Learning Vector Quantization , LVQ )原创 2017-03-24 11:59:40 · 1051 阅读 · 1 评论 -
数据挖掘-目录-深度学习(Deep Learning)
受限波尔兹曼机( Restricted Boltzmann Machine, RBN )Deep Belief Networks ( DBN )卷积网络( Convolutional Network )堆栈式自动编码器( Stacked Auto-encoders )原创 2017-03-24 12:02:07 · 548 阅读 · 1 评论 -
数据挖掘-目录-关联分析
Apriori(频繁项集挖掘并行化)FP AssociationRules FPGrowth FPTree原创 2017-03-23 19:06:28 · 388 阅读 · 0 评论