amy_1217-CSDN博客

转载 jupyter notebook

https://www.jianshu.com/p/444c3ae23035jupyter notebook --generate-configIn [1]: from notebook.auth import passwdIn [2]: passwd()Enter password:Verify password:Out[2]: 'sha1:67c9e60...

2019-06-12 13:32:00 177

转载 spark学习笔记

1.集群部署方式 standalone Mesos Yarn K8s2. 基本概念Application：指的是用户编写的Spark应用程序，包含了含有一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver:运行Application的main函数并创建SparkContext，SparkContex...

2019-06-12 11:15:00 134

转载 Permission denied (publickey). 解决方法

原因生产机器默认禁用了ssh密码登录权限。解决方案一，sshkey主机一：ssh-keygen -t rsa将生产的pub文件拷贝到主机二上主机二：root@spark3:~# cat 1.pub >> .ssh/authorized_keys root@spark3:~# chmod 600 .ssh/authorized_keys roo...

2019-06-11 16:38:00 7525

转载 Lambda 架构详解

1.为什么要用Lambda Architecture 在大数据处理系统中，数据处理的可靠性和实时性是一对矛盾，往往不可兼得。可靠性是指在任何异常出现的情况下，数据处理都能够做到不重不丢，并且最终得到准确的结果。实时性是指数据从输入到处理完毕输出的时间间隔。一般来说，对于像Hadoop MapReduce这样的批处理系统来说，可靠性很高，而实时性很差；对于Storm这样的流式处理...

2019-01-28 17:00:00 194

转载传统机器算法

SVD(singular value decomposition)，翻译成中文就是奇异值分解。SVD的用处有很多，比如：LSA（隐性语义分析）、推荐系统、特征压缩（或称数据降维）。SVD可以理解为：将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示，这3个小矩阵描述了大矩阵重要的特性Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封...

2018-12-28 14:49:00 141

转载决策树算法

这两篇文章（上，下）已经总结得很好了http://www.cnblogs.com/pinard/p/6050306.htmlhttps://www.cnblogs.com/pinard/p/6053344.html1. 数学基础1.信息论的信息熵：Entropy2.基尼不纯度：Gini impurity2. 类型常见三种决策树算法：决策树ID3算法，决策树C...

2018-12-26 14:23:00 106

转载支持向量机之SVM算法库(scikit-learn)（三）

1. SVM核函数概述　　　　在scikit-learn中，内置的核函数一共有4种，当然如果你认为线性核函数不算核函数的话，那就只有三种。　　　　1）线性核函数（Linear Kernel）表达式为：K(x,z)=x∙zK(x,z)=x∙z，就是普通的内积，LinearSVC 和LinearSVR 只能使用它。　　　　2) 多项式核函数（Polynomial Kernel...

2018-12-25 16:26:00 183

转载支持向量机之推导（二）

SVM算法要解决的是一个最优分类器的设计问题线性SVM算法的数学建模一个最优化问题通常有两个最基本的因素：1）目标函数，也就是你希望什么东西的什么指标达到最好；---- 分类间隔2）优化对象，你期望通过改变哪些因素来使你的目标函数达到最优。---决策面在线性SVM算法中，目标函数显然就是那个“分类间隔”，而优化对象则是决策面。所以要对SVM问题进行数学建模，首先要对上述两个对...

2018-12-25 16:22:00 111

转载支持向量机之数学理论知识（一）

支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类性能席卷了机器学习领域，并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。参考https://blog.csdn.net/feilong_csdn/article/...

2018-12-24 20:33:00 449

转载朴素贝叶斯算法小结

朴素贝叶斯naive bayes是直接生成方法，也就是直接找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)得出。朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法这里提到的贝叶斯定理、特征条件独立假设就是朴素贝叶斯的两个重要的理论基础。1. 数学基础：1.1贝叶斯定理（条件概率...

2018-12-24 17:28:00 418

转载学习计划2019H1

1-3月1. 机器学习理论与实践 1月1）classfication (K近邻，决策树，支持向量机，朴素贝叶斯，逻辑回归，adaboost) NLP number K近邻 KNeighborsClassifier -> K-D Tree, Ball TreeicLogistRegressionDecisionTreeClassifier...

2018-12-23 16:33:00 124

转载正则化方法：L1和L2 regularization、数据集扩增、dropout

正则化方法：防止过拟合，提高泛化能力避免过拟合的方法有很多：Early stopping、数据集扩增（Data augmentation）、正则化（Regularization）包括L1、L2（L2 regularization也叫weight decay），dropout。L2 regularization（权重衰减）L2正则化就是在代价函数后面再加上一个正则化项：...

2018-12-23 15:25:00 199

转载 Boosting学习笔记（Adboost、GBDT、Xgboost）

http://www.cnblogs.com/willnote/p/6801496.html总结得不错AdaBoost是最著名的Boosting族算法。开始时，所有样本的权重相同，训练得到第一个基分类器。从第二轮开始，每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重，上一轮分错的样本权重提高，分对的样本权重降低。之后根据新得到样本的权重指导本轮中的基分类器训练，即在考虑...

2018-12-22 22:10:00 157

转载机器学习总结（1）机器学习基础知识

机器学习分类（1）监督学习数据集是有标签的，就是说对于给出的样本我们是知道答案的，我们大部分学到的模型都是属于这一类的，包括线性分类器、支持向量机等等；（2）无监督学习跟监督学习相反，数据集是完全没有标签的，主要的依据是相似的样本在数据空间中一般距离是相近的，这样就能通过距离的计算把样本分类，这样就完全不需要label，比如著名的K-means算法就是无监督学习应用最广泛的算法；...

2018-12-21 20:50:00 63

转载 learning from the Trenches 12-16 用看板管理大型项目

12. Capturing and Using Process MetricsTwo process metrics:• Velocity (features per week) (每周功能数)• Cycle time (weeks per feature) 周期时间（每个功能的开发时间）1. Velocity1.a reality checktool t...

2018-12-20 13:14:00 167

转载文本之特征提取

法一：Bag-of-words词袋模型文本特征提取有两个非常重要的模型：词集模型：单词构成的集合，集合中每个元素都只有一个，也即词集中的每个单词都只有一个词袋模型：如果一个单词在文档中出现不止一次，并统计其出现的次数（频数）两者本质上的区别，词袋是在词集的基础上增加了频率的纬度，词集只关注有和没有，词袋还要关注有几个。假设我们要对一篇文章进行特征化，最常见...

2018-12-19 14:41:00 1868

转载特征归一化方法之选取

特征归一化主要有两种方法：1、线性函数归一化(Min-Max scaling)线性函数将原始数据线性化的方法转换到[0 1]的范围，归一化公式如下：该方法实现对原始数据的等比例缩放，其中Xnorm为归一化后的数据，X为原始数据，Xmax、Xmin分别为原始数据集的最大值和最小值。2、0均值标准化(Z-score standardization)...

2018-12-18 23:09:00 936

amy_1217的博客