Data Hero

机器学习、数据挖掘、数据分析相关技术文章

数据降维 | 奇异值分解(SVD) 、推荐系统、图像压缩

01 PCA.改 在上一篇文章中,我们学习并实践了一种主流的数据降维算法——主成分分析(PCA)。 我们再来回顾一下PCA的优缺点: 优点:降低数据复杂性,识别最重要的多个特征 缺点:PCA需要将所有数据集放入内存,若数据集较大,内存处理效率低,此时需要使用其他方法来寻找特征值 基于PCA算法...

2019-04-14 15:57:50

阅读数 120

评论数 0

数据降维 | 主成分分析(PCA)

01 数据降维 数据分析中,我们常常面对较大的数据集,这里的“大”,一是指样本量大(如千万量级),二是指高维度(如几百个维度)。因此在正式分析这些大数据前,我们需要对它们做预处理,从而缩减数据维度,提升处理效率和训练效果。 数据降维就是一种数据预处理技术,常用的降维技术如下: 主成分分析 PC...

2019-04-14 10:17:54

阅读数 152

评论数 0

FP-Growth|高效挖掘频繁项集

01 搜索引擎如何联想的? 在使用搜索引擎时,你应该会发现一个现象:当我们在搜索框输入一个字符时,它就会帮你联想补全后面的搜索内容。 比如,你想搜索“西瓜”,当你输入“西”时,搜索引擎会帮你联想出“西部、西瓜、西南地区”等等。这大大提高了我们的搜索效率,你有没有疑惑过,这是如何实现的呢? 今天...

2019-02-28 17:05:37

阅读数 61

评论数 0

Apriori | 挖掘关联规则

01 啤酒与尿布 好久没写代码了,脑子快生锈了,今天我们来实操一个比较有意思的算法——Apriori算法。 Apriori算法是一种用于挖掘数据集内部关联规则的算法,“apriori”在拉丁语中翻译为“来自以前”,听意思你应该就能猜到了,这个算法是用先验知识来预测数据的关联规则的。 说到关联规则...

2019-02-14 14:17:24

阅读数 68

评论数 0

聚类 | KMeans理论与算法实现

01 物以类聚 经过半年的不懈努力,我们已经学习并实践了经典的分类算法和经典的回归算法,下面我们开始学习经典的聚类算法(兴奋~~~) 目前打算对三种聚类算法进行学习和代码实操(俗称“造轮子”): KMeans Apriori FP-Growth 今天我们学习并实践KMeans聚类算法,分...

2018-12-11 19:17:58

阅读数 97

评论数 0

树回归|理论与算法实现

在上一篇文章中,我们比较全面地学习了线性回归的原理是实现,今天我们还是留在回归板块,针对树回归进行学习和实践。 01 树回归原理 相比于线性回归,树回归更适合对复杂、非线性的数据进行回归建模。 原理 回想一下决策树,树回归的原理就是决策树(人家都叫”树“回归了……),在决策树的学习中,有三种算法...

2018-11-05 19:01:40

阅读数 111

评论数 2

常见线性回归|理论与算法实现

01 分类 v.s. 回归 之前我们学习了很多分类方法,在机器学习中,还有一种任务叫回归,回归和分类其实挺像的,都是对样本预测一个值,区别在于, 分类:输出为离散值 回归:输出为连续值 今天我们学习一波线性回归的理论和算法,不要小看线性回归,其实很多商业模型都少不了线性回归的功劳,把线性回归...

2018-10-28 15:13:55

阅读数 147

评论数 0

AdaBoost | 算法实现

在这篇文章中,我们一起学习了AdaBoost算法的原理,今天我们在python3的环境下,根据原理写一段代码来实现AdaBoost算法。 01 构造单层决策树 逻辑: 遍历数据集的每个特征: 遍历特征的每个步长: 遍历步长的每个阈值对比方式(less than/greater than)...

2018-10-21 14:54:31

阅读数 111

评论数 0

统计学习方法|AdaBoost

01 起 在之前的文章中,我们学习了几种经典的分类算法:KNN,Naive Bayes,Decision Tree,Logistic Regression,SVM。 接下来我们学习一种方法来提升分类效果,这种方法的核心思想就是:三个臭皮匠,顶个诸葛亮。 我们先从集成方法讲起,简单介绍Baggin...

2018-10-07 17:41:17

阅读数 88

评论数 0

Python | 成都地区大数据人才市场数据分析(节选)

01 起 大数据行业持续升温,越来越多的人才涌进这个行业。 想知道这个行业需要什么样的人才么? 大数据的问题就交给大数据去完成吧~~ 我们按特定的职位名称,爬取了拉勾网上成都地区所有大数据相关职位的招聘信息,并对这份数据做了多维度分析,得到了很多有价值的信息,构成了一份大数据人才市场分析报告。 ...

2018-09-23 01:01:01

阅读数 212

评论数 0

Python | 数据可视化汇总

01 提纲 不断总结是学习进步的阶梯。 前阵子针对python数据可视化进行了一波学习和实操,是时候总结一下数据可视化的方法和代码了,一起来复习吧! 想要说明的一点是,方法千千万,是学习不完的,怎么办呢? 最近听到一个词:用以致学。就是以目的为导向去学习,学到之后再进行总结,而不是盲目地学。 ...

2018-09-23 00:57:36

阅读数 395

评论数 0

NLP | 文本匹配算法(MaxMatch)

01 贪婪策略 今天我们调用python中的一个自然语言处理包nltk,来实现一个MaxMatch文本匹配算法。 什么是MaxMatch文本匹配算法呢?顾名思义,就是取最长的字符作为一个分词结果,比如说:“我爱中华人民共和国”这个句子,分词后,可以有很多结果,如, {‘我’,‘爱’,‘中华’,...

2018-09-23 00:55:12

阅读数 2206

评论数 0

NLP | 文本特征向量化方法

01 起 在之前的文章中,我们学习了一种分类方法:朴素贝叶斯,朴素贝叶斯特别适合文本分类,比如: 根据邮件内容,判断哪些是垃圾邮件 根据新闻内容,判断新闻情感是正面、负面还是中立 …… 如果想要使用朴素贝叶斯模型去给文本数据分类,就必须对文本数据进行处理。 怎么处理呢?一般是这样的: ...

2018-09-23 00:53:16

阅读数 764

评论数 0

支持向量机(SVM) | 核技巧于SMO算法的实现

01 核技巧 关于支持向量机,我们有这样的共识: 支持向量机是一种分类器,之所以叫“机”是因为它会产生一个二值决策结果,是一种决策机; 支持向量机的泛化误差较低,即,有良好的学习能力,且学到的模型具有很好的推广性,因此被认为是监督学习中最好的定式算法; 支持向量机通过求解一个二次优化问题来最大...

2018-09-23 00:39:10

阅读数 219

评论数 0

leetcode | 初级算法-数组

01 起 最近“不务正业地”刷了一波leetcode上的算法题,初级算法已经刷完50%,战况如下, 刷题固然爽快,但及时总结才是进步之道,下面就数组部分的题目进行回顾和总结。 注意,刷题使用的语言是Python3,"数组"这个数据结构在Pyt...

2018-09-22 11:21:35

阅读数 135

评论数 0

决策树(Decision Tree) | 绘制决策树

01 起 在这篇文章中,我们讲解了如何训练决策树,然后我们得到了一个字典嵌套格式的决策树结果,这个结果不太直观,不能一眼看着这颗“树”的形状、分支、属性值等,怎么办呢? 本文就上文得到的决策树,给出决策树绘制函数,让我们对我们训练出的决策树一目了然。 在绘制决策树之后,我们会给出决策树的使用方法...

2018-09-22 11:17:19

阅读数 1102

评论数 0

决策树(Decision Tree) | 算法实现

01 起 决策树相关的理论知识,我们在这篇文章中有详细讲解。 今天我们基于决策树原理,写一个函数来训练决策树吧。本文基于ID3算法构建决策树,此算法构建决策树的中心思想是: 始终寻找信息增益最大的特征作为当前分支的最优特征 信息增益,即:g(D,A)=H(D)-H(D|A) 02 实现思路...

2018-09-22 11:08:32

阅读数 707

评论数 0

支持向量机(SVM) | SMO算法实现

01 起 在统计学习方法|SVM这篇文章中,我们学习了支持向量机的原理和理论上的算法实现,我们一起回忆一下,支持向量机可以处理三种类型的数据: 线性可分支持向量机——求解策略,硬间隔最大化 线性支持向量机——求解策略,软间隔最大化 非线性支持向量机——求解策略,核技巧+软间隔最大化 我们提出...

2018-09-22 11:03:45

阅读数 413

评论数 1

逻辑斯蒂回归(Logistic Regression) | 算法实现

01 起 在这篇文章中,我们学习了逻辑斯谛回归模型的算法原理:统计学习方法|logistic回归 今天我们基于算法原理,给出利用随机梯度上升算法求解逻辑斯蒂回归模型参数的过程。 我们先来回顾一下逻辑斯蒂回归模型, logistic回归的目的是寻找一个非线性函数sigmoid函数的最...

2018-09-22 10:58:13

阅读数 738

评论数 0

朴素贝叶斯(Naive Bayes) | 算法实现

01 起 大数据时代,我们的“隐私”早已不再是隐私,一个特别直接的证据是什么呢? 我们的邮箱也好、手机也好,经常收到恼人的垃圾邮件、垃圾短信 被这些东西烦的不行,怎么办呢?网上有很多垃圾邮件过滤软件,可以拿来直接用的,其中的原理是什么呢? 今天我们自己造个轮子来过滤邮箱里的垃圾...

2018-09-22 10:53:14

阅读数 523

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭