自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (2)

原创 Spark2.0机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解

我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正。概述      线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)y=f(x)。       Spark中实现了:       (1)普通最小二乘法       (2)岭回归(L2正规化)       (3)Lasso(L1正

2016-09-28 15:38:44 10897 2

原创 Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)

幂迭代聚类, power iteration clustering, PIC 原理简介 Spark 代码 参数设置

2016-09-26 22:33:46 8881

原创 Spark2.0机器学习系列之10: 聚类(高斯混合模型 GMM)

Spark GMM 高斯混合模型概念 参数设置 模型评估 代码

2016-09-25 18:46:55 10647

原创 Spark2.0机器学习系列之8: 聚类(k-means,Bisecting k-means,Streaming k-means)

Spark Kmeans 三种算法分析

2016-09-25 18:32:06 8664

原创 ZooKeeper 学习笔记[未完]

% zkServer.sh start 启动一个本地的zooKeeper服务器 % zkServer.sh stop 停止—–% echo ruok | nc localhost 2181 检查zooKeerper是否正在运行 % echo conf — 检查服务器的配置信息 zoo.cfg

2016-09-24 11:11:41 498

原创 Spark-Hive

启动:spark-sql log4j.properties : log4j.rootCategory=WARN,console 这样就不会有大量INFO输出了#hive-site.xml:metastore.warehouse.dirproperty> <name>hive.metastore.warehouse.dir</name> <value>/home/hadoop/hdfs

2016-09-21 22:18:43 2091

原创 Spark2.0机器学习系列之9: 聚类算法(LDA)

聚类算法 LDA Spark2.0代码

2016-09-21 15:58:06 20890 6

原创 MySQL学习笔记

MySQL完整教程:http://www.runoob.com/mysql/mysql-tutorial.htmlMySQL数据类型: 从文件中导入表更完整的信息请参考http://www.jb51.net/article/58093.htmLOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name.txt' [REPLA

2016-09-08 09:35:48 689

原创 Python Pandas、Spark数据清洗

数据清洗 去重 去空值 数据聚合

2016-09-06 10:30:58 4442

转载 【转载】数学之美系列二十一:布隆过滤器(Bloom Filter)

转载文章,请链接原文:http://www.cricode.com/1083.html在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新

2016-09-06 09:18:57 700

原创 Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类为例)

Spark2.0文本特征提取

2016-09-04 11:15:47 4760

原创 Spark2.0 特征提取、转换、选择之一:数据规范化,String-Index、离散-连续特征相互转换

数据规范化标准化 Normalizer 规范化、StandardScaler、 MinMaxScaler、 MaxAbsScaler label 与feature的重新编号(码)。 VectorIndexer、 StringIndexer、 IndexToString 、oneHotEncoder、bucketizer分箱,QuantileDiscretizer

2016-09-02 17:40:44 11807 1

原创 机器学习算法(优化)之一:梯度下降算法、随机梯度下降(应用于线性回归、Logistic回归等等)

本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。

2016-09-01 09:14:51 4873

幂迭代聚类两篇论文-|PIC.tar.gz

幂迭代聚类两篇论文-

2016-09-26

幂迭代聚类两篇论文|icml2010-pic-final.pdf

幂迭代聚类两篇论文

2016-09-26

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除