机器学习
岸芷汀兰whu
热爱生活、热爱技术
展开
-
用Scala调用MLLib之二元分类
scala调用MLLib之二元分类原创 2015-08-24 14:25:29 · 794 阅读 · 0 评论 -
scikit-learn入门到精通(一):快速入门
加载数据集#encoding=utf-8'''一个dataset是一个类似字典的对象,数据存储在n_samples,n_features的array对象.data中,在监督学习中,响应变量存储在.target中'''from sklearn import datasetsiris = datasets.load_iris()digits = datasets.load_digits()原创 2016-01-29 17:57:10 · 3486 阅读 · 0 评论 -
scikit-learn入门到精通(二):seting和estimator
#encoding=utf-8'''scikit-learn的datasets是2D array.可以理解为一个多为观测的list'''from sklearn import datasetsiris = datasets.load_iris()data = iris.datadata.shape#这是一个150*4的观测数据,没有初始化为(n_samples,n_features)原创 2016-01-29 18:29:10 · 2225 阅读 · 1 评论 -
scikit-learn入门到精通(三):监督学习
KNN#encoding=utf-8'''最近邻和维数灾难'''#分类 irisesimport numpy as npfrom sklearn import datasetsiris = datasets.load_iris()iris_X =iris.datairis_y = iris.targetnp.unique(iris_y)'''k近邻分类'''#分训练集和测原创 2016-01-29 20:05:33 · 1044 阅读 · 0 评论 -
scikit-learn入门到精通(四):模型选择
k-折叠验证'''k折叠验证,用于测量预测精度'''import numpy as npX_folds = np.array_split(X_digits,3)y_folds = np.array_split(y_digits,3)scores = list()for k in range(3): X_train = list(X_folds) X_test =X_t原创 2016-01-29 22:07:16 · 1153 阅读 · 0 评论 -
scikit-learn入门到精通(五)Unsupervised learning: seeking representations of the data
#encoding=utf-8'''五监督学习:寻找数据的代表''''''KMeans聚类'''from sklearn import cluster ,datasetsiris = datasets.load_iris()X_iris = iris.datay_iris = iris.targetk_means = cluster.KMeans(n_clusters=3)k_原创 2016-01-30 12:41:18 · 749 阅读 · 0 评论 -
SparkML实战之一:线性回归
package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr原创 2016-01-14 09:56:47 · 2765 阅读 · 0 评论 -
SparkML实战之二:Kmeans
package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**原创 2016-01-14 09:59:16 · 1632 阅读 · 0 评论 -
SparkML实战之三:Logistic回归
package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache原创 2016-01-14 10:01:12 · 2132 阅读 · 0 评论 -
SparkML实战之五:SVM
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi原创 2016-01-14 10:11:37 · 2164 阅读 · 0 评论 -
SparkML实战之四:回归
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa原创 2016-01-14 10:05:22 · 1438 阅读 · 0 评论 -
零售户决策树分类
package tobaccoimport data.copy._import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.apache.spark.mllib.feature.StandardScal原创 2016-04-14 14:07:45 · 1428 阅读 · 0 评论 -
零售户聚类改善
增加了特征标准化程序package class6import org.apache.spark.mllib.clustering.{KMeansModel, KMeans}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apach原创 2016-01-24 21:44:08 · 647 阅读 · 0 评论 -
贵州烟草大数据之一:零售户聚类
1 思路考虑零售户的总销售量,总库存量两个特征,用这两个特征对零售户进行聚类,找出哪些零售户供不应求、哪些零售户供过于求。合理安排配货。2 数据存准备在hive中创建两张表,之前已经导入了销售数据,现在创建库存数据hive -e " create table hhstore_data( LICENSE_CODE BIGINT, ITEM_CODE INT, QTY_ORD DECIMA原创 2016-01-18 22:25:26 · 2795 阅读 · 5 评论 -
SparkR
简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后,SparkR提供了分布式数据框,它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte翻译 2016-01-17 16:11:25 · 1455 阅读 · 0 评论 -
SPARK机器学习库
[淘宝技术部]SparkMLLIb机器学习库转载 2015-08-22 22:57:16 · 447 阅读 · 0 评论 -
机器学习资源
ML博客园scala资料twitter公司scala教程scala实现logistic原创 2015-08-21 08:42:50 · 565 阅读 · 0 评论 -
UFLDL机器学习
UFLDL机器学习UFLDL-斯坦福大学Andrew Ng教授“Deep Learning”教程 大量机器学习资料原创 2015-08-22 23:25:57 · 566 阅读 · 0 评论 -
机器学习-数据集-安德鲁.莫尔
ppv 安德鲁.莫尔 dataset原创 2015-09-29 12:42:23 · 804 阅读 · 0 评论 -
R语言k-means聚类
轮廓系数参考https://en.wikipedia.org/wiki/Silhouette_(clustering)K值选取在实际应用中,由于Kmean一般作为数据预处理,或者用于辅助分类贴标签。所以k一般不会设置很大。可以通过枚举,令k从2到一个固定值如10,在每个k值上重复运行数次kmeans(避免局部最优解),并计算当前k的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。数原创 2015-11-24 13:18:13 · 5743 阅读 · 0 评论 -
R语言数据挖掘
基于R语言的随机森林算法运用http://mp.weixin.qq.com/s?__biz=MzIxNjA2ODUzNg==&mid=400806663&idx=1&sn=51b4b7a44a33606bd9262e208f91c2df&scene=0#wechat_redirect【译文】简单的R逻辑回归向导http://mp.weixin.qq.com/s?__biz=MjM5MzM4Mjc4M原创 2015-11-25 20:44:01 · 791 阅读 · 0 评论 -
R机器学习之一:kNN算法案例
kNN算法优劣优点: 高度无偏且不需要对数据作任何假设。简单有效易于实现 缺点: 由于没有涉及抽象过程,kNN实际上并没有创建一个模型,预测时间较长case study:检测前列腺癌Step 1 : 100个观测10个变量,其中8个数值变量,一个类别变量,一个ID: 1,Radius 2,Texture 3,Perimeter 4,Area 5,Smoothness 6,Comp原创 2015-11-27 08:55:54 · 4142 阅读 · 0 评论 -
R机器学习之二:逻辑回归
逻辑回归是啥?Logistic 回归是一个二分类算法,用来预测给定独立变量集的二分类输出。我们使用哑变量代替二分类输出。也可以把逻辑回归看成输出为类别变量的特殊的线性回归(使用对数几率作为依赖变量)。简而言之,它通过拟合一个logit函数预测一件事情的发生的概率。逻辑回归方程的由来广义线性模型的基本等式是; g(E(y))=α+βx1+γx2g(E(y))=\alpha +\beta x1+\ga原创 2015-11-27 09:11:19 · 6881 阅读 · 1 评论 -
机器学习精要-R代码
线性回归#Load Train and Test datasets#Identify feature and response variable(s) and values must be numeric and numpy arraysx_train <- input_variables_values_training_datasetsy_train <- target_variables_原创 2015-11-27 19:15:30 · 588 阅读 · 0 评论 -
SparkMLlib之六:Clustering
Spark支持下面的模型K-meansGaussian mixturePower iteration clustering(PIC)Latent Dirichlet allocation(LDA)Bisecting k-meansStreaming k-meansK-meansk-means是最常用的已知聚类数的聚类算法,spark.mllib实现了Kmeans的变体k-means++原创 2016-01-16 14:44:20 · 2766 阅读 · 0 评论 -
R机器学习之交叉验证改善模型
什么事交叉验证交叉验证就是保留一部分样本集不用于训练模型,而用于预测。交叉验证的方法50%测试集,50%训练集 缺点:只用一半数据集训练有可能丢失有用信息,即高偏差留一法 2.1使用所有数据点,具有较低偏差 2.2 递归执行n次交叉验证,较高执行时间 2.3在测试集上容易产生高方差,因为一旦这个作为测试集的点是个异常点,那就over!k-折叠交叉验证 k-折叠交叉验证解决了上面两个的原创 2015-11-27 18:57:34 · 5629 阅读 · 0 评论 -
零售户logistics回归分类
package tobaccoimport data.copy._import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mllib.clustering.KMeansimport org.apache原创 2016-04-14 15:34:51 · 908 阅读 · 0 评论