Alvin AI Blog

Just Some Note Taking

Kaggle - 房价数据EDA( House Prices: Advanced Regression Techniques)

内容来自:House Prices:Advanced Regression Techniqueshttps://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-pythonEDA步骤:查看目标变量(即房价)的分布情况(利用...

2018-05-01 20:07:57

阅读数:150

评论数:0

Python - 在线学习(PLA 和 SGD)

当数据太大的时候,计算机内存无法同时处理数据集,则可以考虑分段加载的方式,在线依次加载到计算机内存中完成算法的训练。1. 感知器:Perceptron Learning Algorithm,PLA。最老的计算机学习算法,只能解决线性问题,基于核的感知器则可以解决非线性数据集。关于PLA详细使用请参...

2018-04-28 11:03:15

阅读数:418

评论数:0

Python - 森林(随机森林、超随机树 和 旋转森林)

当输入数据中存在非线性关系的时候,基于线性回归的模型就会失效,而基于树的算法则不受数据中非线性关系的影响,基于树的方法最大的一个困扰时为了避免过拟合而对树进行剪枝的难度,对于潜在数据中的噪声,大型的树倾向于受影响,导致低偏差(过度拟合)或高方差(极度不拟合)。不过如果我们生成大量的树,最终的预测值...

2018-04-26 13:25:13

阅读数:1104

评论数:1

Python - 模型集成(挂袋法、权重提升法 和 梯度提升法)

当我们想在数据集上构建许多个模型,便可考虑使用集成的方法:1. 挂袋法:并行进行,挂袋法集成中的每一个模型只使用训练集的一部分,它们的思路是减少对数据产生过度拟合,但前提是每个模型的差别不能太大,挂袋法对如线性回归之类的线性预测器无效。对于一些很稳定的模型,挂袋法的效果不明显,它适合那些对很小的改...

2018-04-26 10:04:21

阅读数:201

评论数:0

Python - 回归(线性回归、RFE、LASSO 和 岭回归+K折交叉验证)

1. 普通线性回归:通过输出模型的真实值和预测值的平均平方差尽可能小(即最小二乘估计法),但容易陷入过度拟合(即低偏差),后续回归方法会有带正则化法来缩减数据。2. 普通线性回归+RFE:RFE是recursive feature elimination回归特征消除,让回归特征消除过程中只保留no...

2018-04-25 21:41:31

阅读数:729

评论数:0

Python - 机器学习的分类方法(KNN、朴素贝叶斯 和 决策树)

1. KNN:K最近邻法,把所有的训练集数据都加载到内存中,当它需要对测试实例进行分类时,它衡量这个实例的所有训练实例之间的距离,基于距离,它选择训练集里的K个最近的实例。2. 朴素贝叶斯分类器:贝叶斯是基于“独立假定”的概念,即分类实例之间是相互独立的,例如文档里出现的词是相互独立的,并基于此假...

2018-04-25 17:28:31

阅读数:149

评论数:0

Python - 机器学习的基础运用

#划分数据集 from sklearn.cross_validation import train_test_split train, test = train_test_split(input_dataset,test_size=0.3) #载入数据库 from sklearn.dataset...

2018-04-25 15:58:43

阅读数:49

评论数:0

Python - 异常值检测(绝对中位差、平均值 和 LOF)

1. 单变量数据中检测异常点的方法:绝对中位差:如果一个点大于或小于3倍的绝对中位差,那它就被是视为异常点。中位值作为评估值要健壮得多,它是在升序排列的多个观察值中位于中间的观察值,要想彻底改变中位值,要替换掉远离中位值的一半观察值,因此有限样本击穿点是50%。平均值:对于高斯分布的数据来说,68...

2018-04-25 12:16:41

阅读数:3772

评论数:0

Python - 聚类(KMeans 和 LVQ)

K-means:无监督算法,具有不确定性,因为刚开始输入的聚类点不同,可能会导致最终聚类的结果不同,因此建议多做几次聚类,看看那种分类靠谱点。簇的位置:簇中心的坐标。K-means初始化的时候随机选择一个点作为中心点,然后每个步骤迭代找到一个新的中心,在这个新的中心附近的点都相似,并被划分到同一个...

2018-04-24 16:03:43

阅读数:325

评论数:0

Python - 使用距离度量 (Lr-norm、余弦、Jaccard 和 Hamming距离)

以下内容来自《Python数据科学指南》欧式空间与非欧氏空间的区别:l  直观理解上:如果向量的元素是实数,那就是欧式空间;如果是整数,则不是欧式空间。其中文本挖掘时,词被当作轴,文档作为空间内的向量,两个文档向量的夹角的余弦值代表这两个文档之间的相似度。l  数学理解上:欧式空间内两条平行线永不...

2018-04-24 13:32:39

阅读数:79

评论数:0

Python - 降维(PCA、核PCA、SVD、高斯随机映射 和 NMF)

以下内容来自《Python数据科学指南》降维方法比较:PCA:计算代价高昂,特征向量得存在线性相关。核PCA: 特征向量是非线性相关也可以。SVD:比PCA更能解释数据,因为是直接作用于原数据集,不会像PCA一样,将相关变量转换为一系列不相干的变量。另外,PCA是单模因子分析方法,行列代表的是相同...

2018-04-23 22:01:03

阅读数:810

评论数:0

Python - 数据预处理

以下内容来自《Python数据科学指南》数据预处理:修补数据、随机采样、缩放数据、标准化数据、实现分词化、删除停用词、删除标点符号、词提取、词形还原、词袋模型1. 修补数据:处理不完整或存在内容丢失的数据。采用模块:from sklearn.preprocessing import Imputer...

2018-04-17 20:36:33

阅读数:169

评论数:0

Python - zip和izip函数 以及 位置参数和命名参数的运用

zip:将两个相同长度的集合合并成对izip: 作用跟zip一样,但面对两个超大的列表时,izip速度更快#注意两个集合的长度大小必须一致,如果不满足,则输出结果会削减以匹配较小的集合大小 a = [1,2,3,4] b = [2,2,2,2] c = zip(a,b) >&...

2018-04-12 21:37:18

阅读数:166

评论数:0

Python - 字典、元组、集合和列表的区别及使用

字典dict:键值对应 {}元组tuple:固定不可修改()列表list:元素可重复且数据同构 []集合set:元素不可重复且数据无序、同构 set()1.字典:字典结构是一个哈希映射,值对应键word_dict = {} word_dict[word] = 1 #词频统计 for word i...

2018-04-12 21:11:37

阅读数:55

评论数:0

关于安装Elasticsearch无法找到java路径的解决办法

问题一:cmd里输入java可运行,而javac不可运行。问题原因:如果你下载的java是最新版本version 9的话,当设置class_path, path和java三个环境变量时,class_path下的路径找不到dt.jar或tools.jar文件。解决办法: 下载java version...

2018-03-14 12:35:22

阅读数:1558

评论数:0

如何利用季节性数据进行预测分析

以下内容来自Coursera里宾大BA的OPS专项课内容:下面利用历年国家公园季节性游客数量做预测分析:为了得到可用于分析的季节因子(Seasonal Factors.),需要计算下面几个指标:(1)样本平均:把所有样本(不分季节和年份)加起来求平均值;(2)季节平均:分别求出不同季节的平均游客数...

2018-03-01 17:56:06

阅读数:2106

评论数:0

LaTeX生成符合格式的IEEE参考文献内容

在投稿IEEE的时候,会有相关的格式要求,其中由于参考文献部分的格式要求比较不同,手动修改闲的麻烦,因此使用LaTex生成IEEE参考文献的pdf版本,再将pdf版本上符合格式要求的参考文献放入自己文章即可。前期准备(自行下载):WinEdt:一个Windows平台下的强大的通用文本编辑器,其更倾...

2018-03-01 17:20:49

阅读数:3108

评论数:0

Backpropagation 推导过程 & Neural Networks mechanism

Backpropagation推导过程 http://www.mamicode.com/info-detail-671452.html https://www.cnblogs.com/nowornever-L/p/6908944.html 1.当前层的误差向量δ(l)可以由下一层的误差向量δ...

2018-02-02 18:03:20

阅读数:85

评论数:0

Principal Component Analysis(PVA) with SVD

#PCA用法 1.mean normalization(零均值化)且feature scaling 2.sigma=(1/m)*X'*X; %get 'covariance matrix' 3.[U,S,V]=SVD(sigma); %奇异值分解 4.Ureduce = U(:,1:k);...

2018-02-02 18:03:09

阅读数:102

评论数:0

Deeplearning.ai 课外资料

Pros and cons of different activation functions: https://www.zhihu.com/question/29021768 https://www.cnblogs.com/willnote/p/6912798.html Weight In...

2018-02-02 18:02:55

阅读数:77

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭