2018年09月_不论如何未来很美好

原创 TF-IDF及相关知识（余弦相似性）

自然语言的处理是一个神奇的领域，它涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，由于复习相关知识，所以这里对该方向的部分知识做一个简单的介绍和记录。该文主要记录的是一个很简单却很经典有效的算法——TF-IDF。从它的概念到运算可能花不了10分钟就能了解，并且用到的运算知识都不涉及高等数学，但往往能返回我们一个满意的答案。当我们输入一段检索信息时，可以利用TF-IDF算法，给我们返...

2018-09-15 15:42:15 2855 3

转载 PCA（explained_variance_ratio_与explained_variance_）

之前有写过关于PCA的原理和代码实现，但是对于sklearn中的PCA没有做过多的描述，所以这里转载一篇文章作为补充：这里提一点：pca的方法explained_variance_ratio_计算了每个特征方差贡献率，所有总和为1，explained_variance_为方差值，通过合理使用这两个参数可以画出方差贡献率图或者方差值图，便于观察PCA降维最佳值。再提醒一点：pca中的参数选项...

2018-09-09 15:21:12 33991 14

原创绘制学习曲线——plot_learning_curve

学习曲线：一种用来判断训练模型的一种方法，通过观察绘制出来的学习曲线图，我们可以比较直观的了解到我们的模型处于一个什么样的状态，如：过拟合（overfitting）或欠拟合（underfitting）先来看看如何解析学习曲线图：要看深刻了解上面的图形意义，你需要了解偏差（bias）、方差（variance）对于训练模型的意义，可以参考这里，当你了解后，我们来看看上面的图形代表的意义：（...

2018-09-09 12:50:35 45008 6

转载 Pandas的qcut()与cut()

>>> factors = np.random.randn(9)[ 2.12046097 0.24486218 1.64494175 -0.27307614 -2.11238291 2.15422205 -0.46832859 0.16444572 1.52536248]pd.qcut()qcut是根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数...

2018-09-07 13:39:32 3975

原创 Bagging和Boosting（偏差与方差）

机器学习中的集成学习有两个重要的策略，即Bagging与Boosting。Bagging：算法构建多个分类器，每个分类器都随机从原样本中做有放回的抽样，利用这些采样后的样本训练该分类器，然后将这些分类器组合起来构成一个更强效果更好的组合分类器，结果一般使用多数投票效果就很好了。其代表算法为随机森林。Boosting：算法通过迭代构建一系列的分类器，每次分类都将上一次...

2018-09-07 09:29:39 8723

原创数据平滑处理——log1p()和exmp1()

今天在做题的时候学到了一点有用的东西，所以这里做个记录分享一下，有关数据预处理的两个函数问题——log1p、expm1优点：在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化，使其更加服从高斯分布，此步处理可能会使我们后续的分类结果得到一个更好的结果；平滑处理很容易被忽略掉，导致模型的结果总是达不到一定的标准，同样使用逼格更高的log1p能避免复值得问题——复值指一个自变...

2018-09-05 14:58:53 37463 2

原创数据挖掘十大经典算法（包括各自优缺点 / 适用数据场景）

本文主要分析皆来自其他资料，借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述（根据自身经验有一定修改），另外同时附上机器学习实战中作者对各种算法的评价。另外机器学习实战这本书是本人看了这么多书籍或者资料中唯一一本坚持从头看到尾，看完了的书籍，包括其中的代码皆实践运行过，收获颇多，个人认为虽然这本书时间上已经算是老资料了，但其中作者的各种总结和代码的演练都由浅入深（前提还是要有一点...

2018-09-04 15:18:03 158353 7

原创机器学习实战——SVD（奇异值分解）

与PCA一样的学习过程，在学习SVD时同样补习了很多的基础知识，现在已经大致知道了PCA的应用原理，SVD个人感觉相对要难一点，但主要步骤还是能勉强理解，所以这里将书本上的知识和个人的理解做一个记录。主要关于（SVD原理、降维公式、重构原矩阵、SVD的两个实际应用），当然矩阵的分解和相对的公式我会给出写的更好的文章对于说明（个人基础有限）。（最后给出两条SVD最重要的公式）SVD（奇异值分...

2018-09-03 16:19:52 86127 32

原创 numpy的nonzero()和logical_and/or/not()

由于最近学习的资料频繁出现numpy中的两个方法：nonzero()和logical_and/or/not()两个用于判断的函数。由于觉得确实很方便（如果不使用pandas处理数据），所以这里对两个方法做一个记录，以便后面的使用参考。np.nonzero(参数)： no.nonzero()函数是numpy中用于得到数组array中非零元素的位置（数组索引）的函数，很适合用来对数据下标...

2018-09-02 20:44:05 2011

原创机器学习实战——PCA（主成分分析）

本章关于PCA的代码虽少，但涉及到的知识却很多，由于数学知识比较浅薄，所以在看这章时提前查找资料复习了很多的概率论和统计学知识和python基础知识，这里记录的很多都是关于PCA的相关知识或理论（例如：特征向量、协方差矩阵等），由于部分知识涉及较多，讲的有点详细所以文章篇幅较长尽量缩减了，下面进入正文。通常我们可以很清楚的看到一维数据，或直观的二维图形，但实际中很多的数据远不止1、2、3维，这...

2018-09-01 17:37:02 12143 1

昆兰.沃斯的博客