frogbar-CSDN博客

原创 FM&FFM&DeepFFM

https://blog.csdn.net/John_xyz/article/details/78933253http://baijiahao.baidu.com/s?id=1579855367208283187&wfr=spider&for=pchttps://blog.csdn.net/g11d111/article/details/77430095http:...

2019-05-10 11:20:39 459

原创 SQL时间戳与日期转换

(1)日期转为时间戳UNIX_TIMESTAMP('2015-04-29','yyyy-MM-dd')(2)时间戳转为日期FROM_UNIXTIME('1430236800','yyyy-MM-dd')sql查询使用时可将两函数中第一个参数替换为相应的字段名称...

2018-07-04 14:36:32 114053 2

转载集成学习-Stacking

转自 https://rasbt.github.io/mlxtend/user_guide/classifier/StackingClassifier/ (英文版)(感觉是原创)(推荐)http://blog.csdn.net/willduan1/article/details/73618677 (中文版)StackingClassifierAn ensemble-learning met...

2018-03-12 16:04:07 1325

转载决策树算法原理

本文转自 https://www.cnblogs.com/pinard/p/6050306.htmlhttp://www.cnblogs.com/pinard/p/6053344.html ID3,C4.5见https://blog.csdn.net/lemon_tree12138/article/details/51837983https://blog.csdn.net/lemo...

2018-02-25 15:12:09 778

转载朴素贝叶斯算法

转自https://zhuanlan.zhihu.com/p/26262151贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法，希望有利于他人理解。分类问题综述对于分类问题，其实谁都不会陌生，日常生活

2018-02-02 10:06:15 397

转载相关数据集地址

spark sample_linear_regression_data.txthttp://code.taobao.org/p/bigdatas/diff/14/trunk/spark-1.0.1/mllib/data/sample_libsvm_data.txt

2018-02-01 17:04:36 695

转载 spark ML 与 MLlib 的区别

https://www.zhihu.com/question/35225203spark.mllib中的算法接口是基于RDDs的；spark.ml中的算法接口是基于DataFrames的。技术角度上，面向的数据集类型不一样：ML的API是面向Dataset的（Dataframe是Dataset的子集，也就是Dataset[Row]）， mllib是面对RDD的。Dataset和

2018-02-01 14:44:21 648

转载 spark sql构建DataFrame从各种格式数据文件

转自http://www.cnblogs.com/ywjy/p/7747482.html

2018-01-31 10:56:28 244

原创 idea shade 打包 & pom

用于记录项目中的学习过程pom配置如下部分中为shade插件,用于打成jar包,通过view->tool windows->Maven projects调出右边的Maven projects,依次点击plugins下的clean,然后lifecycle下的package则可完成打包.xml version="1.0" encoding="UTF-8"?>xmlns="http://mav

2018-01-30 19:30:42 1288

转载 spark saveASTextFile

转自 https://www.cnblogs.com/devilmaycry812839668/p/6922738.htmlscala> val rd1 =sc.parallelize(Array(1 to 10000))rd1: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelC

2018-01-26 17:02:26 13869 1

原创 spark DataFrame 相关操作简记

创建Dataset和Dataframe最简单的方式就是使用spark.range方法来创建一个Datasetval DS = spark.range(5, 100, 5)创建DataFrameval DF = spark.createDataFrame(List(("Scala", 35), ("Python", 30), ("R", 15), ("Java", 20)))

2018-01-23 13:41:33 595

原创 sparksession相关概念

在2.0版本之前，与Spark交互之前必须先创建SparkConf和SparkContext，代码如下： val sparkConf = new SparkConf().setAppName("SparkSessionZipsExample").setMaster("local") val sc = new SparkContext(sparkConf).set("spark.some.

2018-01-23 13:40:20 799

转载 spark 部署方式

spark部署方式目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARNStandalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。Spark On Mesos模式官方推荐这种模式（当然，原因之一是血缘关系）.1)粗粒度模式1

2018-01-23 13:36:30 1318

转载 spark-submit 相关参数

spark-submit 相关参数master url:local: 使用1个worker线程在本地运行Spark程序local[k]: 使用k个worker线程在本地运行Spark程序local[*]: 使用所有剩余worker线程在本地运行Spark程序spark://HOST:PORT: 连接到Spark Standalone集群,以便在该集群上运行Spark应用

2018-01-23 13:34:42 651

转载 spark-DataFrame操作

http://blog.csdn.net/dabokele/article/details/52802150

2018-01-17 09:51:04 190

原创 python索引问题

1.groupby后将索引变为数据框的列使用2.某些csv文件读入后多列变为只有1列时使用df1 = df.reset_index()

2017-11-03 17:17:24 647

原创二分类相关评估指标（召回率、准确率，精确率，F度量，AUC和ROC）

基础定义通常在机器学习的二分类领域中，对模型的结果评估是必不可少的，本文主要总结了各个评估指标，对每个指标的定义，作用进行阐述。废话到此，直接上干货。TP：True Positive FP：False PositiveTN：True NegtiveFN：False Negtive以上四个定义是基础，Positive表示对样本作出的是正的判断，T表示判断正确，F表示判断错误...

2017-10-05 15:40:53 15907 1