机器学习
小糖宝
湖北的詹密 哈哈哈哈
展开
-
数据结构小白的第一次尝试------queue (项目实战)
项目中有一个需求,求取taxi出行od的最大峰值(taxi od最大交叉值),采用队列处理:案例:val data = Seq((“A”,“2019-01-05 00:23:20”,“2019-01-05 00:27:20”,“2019-1-05”),(“A”,“2019-01-05 00:25:20”,“2019-01-05 00:37:20”,“2019-1-05”),(“A”,“2019-01-05 00:35:20”,“2019-01-05 00:40:20”,“2019-1-05”),原创 2020-05-15 21:58:38 · 910 阅读 · 0 评论 -
提升机器学习数学基础,这7本书一定要读-附pdf资源
https://blog.csdn.net/xinshucredit/article/details/89552600?locationNum=6&fps=1转载 2020-03-10 10:56:04 · 335 阅读 · 0 评论 -
Spark Caused by: java.io.NotSerializableException 序列化异常踩过的坑
https://blog.csdn.net/qq_28743951/article/details/86599918转载 2019-10-22 09:12:52 · 1431 阅读 · 0 评论 -
算法小白的第一次尝试---BoostingTree(手撕提升树)
import org.apache.spark.ml.feature.LabeledPointimport org.apache.spark.ml.linalg.Vectorsimport scala.collection.mutable.ArrayBuffer/** * @author XiaoTangBao * @date 2019/3/10 16:00 * @version...原创 2019-03-11 09:29:22 · 9753 阅读 · 0 评论 -
算法小白的第一次尝试---多元线性回归
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.sql.types.{DoubleType, StructField, StructType}import org.apache.spark.sql.{DataFram...原创 2019-03-20 23:03:55 · 4727 阅读 · 0 评论 -
算法小白的第一次尝试---Kmeans (适用于任何维度数据)
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Row, SparkSession}import scala.c...原创 2019-03-18 21:54:34 · 10708 阅读 · 0 评论 -
算法小白的第一次尝试---DBCSAN实现(手撕)
import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSessionimport scala.collection.mutableimport scala.collection.mutable.ArrayBuffer/** * @author XiaoTangBao * @date 2019/...原创 2019-04-10 22:05:13 · 10037 阅读 · 7 评论 -
算法小白的第一次尝试---PCA(主成分分析)降维【适合各种纬度数据】
import breeze.linalg.{Axis, DenseMatrix, eigSym, sum} import org.apache.log4j.{Level, Logger} ...原创 2019-04-16 13:28:28 · 11363 阅读 · 0 评论 -
算法小白的第一次尝试---KPCA(核主成分分析)降维【实例对比分析PCA、LDA和KPCA】
-------------------------------------------------------------------------------------笔者追求算法实现,不喜欢大篇幅叙述原理,有关KPCA理论推荐查看该篇博客https://blog.csdn.net/zjuPeco/article/details/77510981 PCA降维欢迎前往笔者上一篇博客:ht...原创 2019-04-29 16:18:18 · 13641 阅读 · 6 评论 -
算法小白的第一次尝试---LDA(线性判别分析)降维 【适用于任何维度】
import breeze.linalg.DenseMatriximport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.{LabeledPoint,VectorAssembler}import org.apache.spark.ml.linalg.Vectorsimport org.apache.s...原创 2019-04-24 22:35:30 · 10202 阅读 · 0 评论 -
Spark处理csv文件和Parquet文件速度对比
转载1:https://www.jianshu.com/p/8fd4b48bf604转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Sp...转载 2019-06-28 19:42:24 · 1553 阅读 · 0 评论 -
基于Spark2.0 RandomForest(cv验证) 规范化流程
转载:https://www.cnblogs.com/wwxbi/p/6222356.html?utm_source=itdadao&utm_medium=referral转载 2019-08-12 15:18:22 · 316 阅读 · 0 评论 -
算法小白的第一次尝试---SVM实现
import org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.{BinaryClassificationMetrics, MulticlassMetrics}im...原创 2019-03-07 15:24:16 · 9690 阅读 · 0 评论 -
算法小白的第一次尝试---朴素贝叶斯
package Bayesimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ArrayBufferimport org.apache.spark.ml.feature.LabeledPointimport org.apache.spark...原创 2019-01-12 19:17:24 · 9341 阅读 · 0 评论 -
算法小白的第一次尝试---ID3(Decision Tree)
package DecesionTreeimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.ml.feature.StringIndexerimport java.math._i...原创 2019-01-15 20:19:18 · 3974 阅读 · 0 评论 -
最小二乘法---最详细的解释
http://blog.sina.com.cn/s/blog_7445c2940102wjz8.html#commentComment最小二乘法,又是一个即熟悉又陌生的名字。对于学工科的我,简直就是听着最小二乘长大的(汗。。。)。但是,之前碰到要用最小二乘法的时候,我采取的办法都...转载 2019-03-04 22:24:41 · 30809 阅读 · 11 评论 -
Spark Breez矩阵计算
import breeze.linalg._import breeze.numerics._import breeze.stats.distributions.Rand/** * @author XiaoTangBao * @date 2019/3/5 16:16 * @version 1.0 */object Breeze { def main(args: Array...转载 2019-03-05 16:24:37 · 5755 阅读 · 0 评论 -
算法小白的第一次尝试---PLA(感知机算法)实现
import breeze.linalg.DenseVectorimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.LabeledPointimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSess...原创 2019-03-06 10:59:20 · 9851 阅读 · 0 评论 -
手撕SVM公式
转载自:https://blog.csdn.net/Dominic_S/article/details/83002153 1.SVM作用对于给定的训练样本集D={(x1,y1), (x2,y2),… (xn,yn)},yi属于{-1,+1},希望能找出一个超平面,把不同类别的数据集分开,对于线...转载 2019-03-08 20:31:05 · 282 阅读 · 0 评论 -
算法小白的第一次尝试---AdaBoost(手撕)
特别警告:https://www.wandouip.com/t5i28437/ 希望该网站尊重原创,转载请标明出处。import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.LabeledPointimport org.apache.spark.ml.linalg.Vectorsimport org...原创 2019-03-09 22:37:39 · 9943 阅读 · 0 评论 -
算法小白的第一次尝试--LinearRegression
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.regression.{LinearRegression, LinearRegressionModel}import org.apache.spark.sql.{...原创 2019-03-04 16:13:14 · 9718 阅读 · 0 评论 -
Spark ml数据归一化
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionimport org.apache.spark.ml.feature.Normalizerimport org.apache.spark.ml.feat...原创 2019-03-04 17:17:54 · 9984 阅读 · 0 评论 -
算法小白的第一次尝试---ID3实现决策树
package DecesionTreeimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.ml.feature.StringIndexerimport java.math._i...原创 2019-01-17 12:54:31 · 9357 阅读 · 0 评论