TIAN_R-CSDN博客

翻译 scikit-learn官方文档-preprocessing data(数据预处理)

一、标准化，均值和方差缩放数据集的标准化是许多在scikit-learn中实现的机器学习估计器的普遍要求。如果单个特征或多或少看起来不像标准正态分布数据，则它们的性能可能会很差。标准正态分布的定义：平均值和单位方差为零的高斯。在实践中，我们经常忽略分布的形状，而只是通过删除每个特征的平均值来变换数据以使其居中，然后通过将非恒定特征除以它们的标准偏差来缩放它。例如，学习算法的目标函数中使用的...

2020-04-05 22:09:42 1301

自定义标题一、数据不平衡现象二、处理方法1、采样2、加权3、合成数据4、更换算法5、使用其他的评价指标三、合适处理方法的选择标准一、数据不平衡现象在学术研究与教学中，很多算法都基于一个假设，那就是数据分布是均匀的。但在实际数据中，数据往往分布得很不均匀，都会存在“长尾现象”，也就是“二八原理”。不平衡程度(即正负样本比例类似)的两个问题，解决的难易程度也可能不同，因为问题难易程度还取决于我们所...

2020-03-15 21:03:29 8327

转载模型常见距离公式

最近需要不断沉淀，距离公式永远不能忘记欧氏距离最简单直接的距离度量方法标准化欧氏距离标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fHFQ0A7c-1584257314937)(在这里插入图片描述)]](https://im...

2020-03-15 15:44:20 2325

原创分类模型性能评估指标

机器学习模型会产生的性能评估指标主要有：准确率、错误率、灵敏度、特效度、精确率、召回率、F-Measure、AUC、ROC曲线背景针对一个二分类问题，将实例分成正类(positive)或者负类(negative)，实际会产生如下四种情况1、若一个实例是正类并且被预测为正类，即为真正类(True Postive TP)2、若一个实例是正类，但是被预测成为负类，即为假负类(False Ne...

2020-03-14 22:44:23 4871

原创 LCSS算法实现-坐标系下的Scala版本

最近在使用用户的定位轨迹和公交车的行驶轨迹做匹配，查看用户是否在乘坐公交车，将每天内匹配的路径次数做特征，放入到模型分类之中，研究了一下LCSS算法的原理，参考文章如下，之后在Scala版本下做了一个小型的测试，记录一下https://blog.mythsman.com/post/5d3089bc976abc05b3454866/https://blog.csdn.net/wk113431...

2020-03-10 11:28:15 654

原创 java.lang.ClassCastException

org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.IntWritableScala文件输出的RDD落入表时，其字段多于该表在Hive中所创建的字段

2020-03-09 18:57:28 707

原创 Scala中java.lang.NoClassDefFoundError

新建了一个Scala object文件，从数据库里面抽取数据进行分析，结果一直报错看了网上的一些资料发现错误原因是因为Scala在pom文件里面配置的版本和编译版本不一致，于是将POM文件里面的Scala版本更改为2.11.8，问题解决。...

2020-03-09 18:53:38 4438

原创《Spark快速大数据分析》-《第六章--Spark编程进阶》-读书笔记

2020-03-09 14:33:33 155

原创《Spark快速大数据分析》-《第五章--数据读取与保存》-读书笔记

2020-03-09 09:53:06 210

原创《Spark快速大数据分析》-《第四章--键值对操作》-读书笔记

Mark，进阶阶段的数据分区内容需要继续阅读，加深理解

2020-03-08 18:38:07 176

原创《Spark快速大数据分析》-《第三章--RDD编程》-读书笔记

2020-03-07 17:11:11 224

原创数据结构框架图

数据结构框架图有错请喷，共同进步

2020-03-07 15:45:03 580 1

原创数据结构-绪论

数据结构的基本概念基本概念和术语1、数据数据是信息的载体，是描述客观事物属性的数、字符以及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。2、数据元素数据元素是数据的基本单位，通常作为一个整体进行考虑和处理。一个数据元素可由若干个数据项组成，数据项是构成数据元素的不可分割的最小单位。例如：学生记录就是一个数据元素，它由学号、姓名、性别等数据项组成。注意：不要混淆数据、数据元素...

2020-03-07 15:43:48 562

原创经纬度转以米为单位的距离计算公式

经纬度字段原始字段格式: POINT(116.094532 39.579501)6378137*2*ASIN(SQRT(POWER(SIN((ta.start_point_lat-ta.close_point_lat)*ACOS(-1)/360),2) +COS(ta.start_point_lat*ACOS(-1)/180)*COS(ta.close_point_lat*ACOS(-1)/1...

2020-03-07 15:12:44 3229

转载 scala日常学习笔记--函数式方法来处理数据交互的问题（部分引用，笔记持续添加...）

Option: 解决null（空指针）问题Either: 解决返回值不确定（返回两个值的其中一个）问题Try: 解决函数可能会抛出异常问题1、optionOption实际上有3个类型：Option、Some和None，Some和None都是Option的子类型，Some和None。Option表示可选的值，它的返回类型是 scala.Some或 scala.None 。Some代表返回有...

2020-02-23 15:18:42 264

翻译 scala-MLlib官方文档---spark.ml package--Advanced topics

Optimization of linear methods (developer)Limited-memory BFGS (L-BFGS)L-BFGS is an optimization algorithm in the family of quasi-Newton methods to solve the optimization problems of the form minw∈ℝd...

2020-01-25 17:53:01 481

翻译 scala-MLlib官方文档---spark.ml package--clustering+model selection and hyperparameter tuning

六、clustering1、K-means1)Input Columns2)Ouput Columns2、Latent Dirichlet allocation3、Bisecting k-means4、Gaussion Mixture Model(GMM)1)Input Columns2)Ouput Columns

2020-01-25 11:17:31 693

翻译 scala-MLlib官方文档---spark.ml package--Classification and regression

五、Classification and regression1、Classification1)Logistic regression(1)Binomial Logistic regression(2)Multinomial logistic regression2)Deicision tree classifier3)Random forest classifier4)Gradi...

2020-01-23 11:17:15 907

翻译 scala-MLlib官方文档---spark.ml package--Extracting、transforming and selecting features

+1

2020-01-20 11:30:14 1630

翻译 scala-MLlib官方文档---spark.ml package--ML Pipelines+Collaborative Filtering+Frequent Pattern Mining

三、ML Pipeline1、Main concepts in PipelinesDataFrame2)Pipeline components(1)Transformers(2)Estimators(3)Properties of pipeline components3)pipeline(1)How it works(2)Details4)Parameters5)ML p...

2020-01-20 09:45:32 1441

翻译 scala-MLlib官方文档---spark.ml package--basic Statistics+Data source

一、basic Statistics1、Correlation2、Hypothesis testing3、Summarizer

2020-01-19 13:39:36 347

翻译 scala-MLlib官方文档---spark.mllib package--Evaluation metrics+Optimization

九、Evaluation metrics

2020-01-17 17:00:16 667

翻译 scala-MLlib官方文档---spark.mllib package--Frequent pattern mining+PMML model export

八、Frequent pattern miningFP-growthassociation rulesPrefixSpan

2020-01-14 13:50:22 470

翻译 scala-MLlib官方文档---spark.mllib package-Dimensionality reduction+Feature Extraction and Transformation

六、Dimensionality reductionsingular value decomposition(SVD)principal component analysis(PCA)

2020-01-13 20:48:46 413

翻译 scala-MLlib官方文档---spark.mllib package--clusteirng

五、Clusteringk-meansGaussian mixturepower iteration clusteringlatent Dirichlet allocation(LDA)bisecting k-meansstreaming k-means

2020-01-13 19:07:32 447

翻译 scala-MLlib官方文档---spark.mllib package--Collaborative filtering

四、Collaborative filteringalternating least squares(ALS)

2020-01-13 13:53:12 344

翻译 scala-MLlib官方文档---spark.mllib package--classification and regression

三、Classification and regressionThe spark.mllib package supports various methods for binary classification, multiclass classification, and regression analysis.linear models1)Mathematical formulation...

2020-01-13 09:57:28 605

翻译 scala-MLlib官方文档---spark.mllib package--Basic statistics

二、Basic statisticssummary statisticsWe provide column summary statistics for RDD[Vector] through the function colStats available in StatisticCode explanationcolStats() returns an instance of Multi...

2020-01-12 11:13:58 660

翻译 scala-MLlib官方文档---spark.mllib package--Data types（数据类型）

一、Data typesMLlib supports local vectors and matrices stored on a single machine, as well as distributed matrices backed by one or more RDDs. Local vectors and local matrices are simple data models t...

2020-01-12 10:49:30 515

转载西瓜书学习笔记之神经网络

内容来源：https://blog.csdn.net/shichensuyu/article/details/90907029

2019-12-12 19:36:03 189

转载西瓜书学习笔记之决策树

书籍内容见链接

2019-12-02 15:50:15 233

转载西瓜书学习笔记之线性模型

https://blog.csdn.net/yzqzoom/article/details/51870899

2019-11-30 17:47:36 184

转载西瓜书学习笔记之模型评估与选择

2.1 经验误差与过拟合2.1.1 一些概念错误率(error rate)：分类错误的样本占样本总数的比例精度(accuracy)：1 - 错误率误差(error)：学习器的实际预测输出与样本的真实输出之间的差异训练误差(training error) | 经验误差(empirical error)：学习器在训练集上的误差泛化误差(generalization error)：在新样本上...

2019-11-24 21:33:20 835

原创西瓜书学习笔记之绪论

1、基本术语数据集：收集了一些数据，每个数据类似（色泽=青绿；根蒂=蜷缩；敲声=浊响）这样的记录，一般可以用D{X1,X2,…Xm}，表示m个示例构成的数据集。示例/样本/特征向量(feature vector)：每条数据集中的记录是关于一个事件或对象的描述，将其称为特征向量是因为每个示例的属性值构成一个向量。属性/特征：反映事件或者对象在一些方面的表现或性质的事项。属性值：属性上面的取值...

2019-11-22 09:03:57 325

原创 Python中批量导入json文件

Python中批量导入Json文件path='D:\data'filelist = os.listdir(path)fileIndex = []for i in range(0 , len(filelist)): index = filelist[i].split(".")[0] fileIndex.append(int(index))for j in range(1 , l...

2019-10-29 11:52:56 1490

pt798633929的博客

原创 NLP算法模型学习列表