自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 【算法周】啥都能干的“随机森林”,你值得拥有!

欢迎关注哈希大数据微信公众号《哈希大数据》1 什么是随机森林?作为高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、20...

2018-06-29 16:27:36 4500 1

原创 【算法周】PCA教你如何化繁为简(下)

欢迎关注哈希大数据微信公众号《哈希大数据》3. PCA算法流程从上面两节我们可以看出,求样本x(i)的n'维的主成分其实就是求样本集的协方差矩阵XXT的前n'个特征值对应特征向量矩阵W,然后对于每个样本x(i),做如下变换z(i)=WTx(i),即达到降维的PCA目的。输入:n维样本集D=(x(1),x(2),...,x(m)),要降维到的维数n'.输出:降维后的样本集D′1) 对所有的样本进行中...

2018-06-23 09:37:32 387

原创 【算法周】PCA教你如何化繁为简(上)

欢迎关注哈希大数据微信公众号《哈希大数据》主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。1.PCA的思想  PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体的,假如...

2018-06-22 09:58:42 454

原创 【算法周】哆啦A梦,我想要个“感知机”

感知机可以说是最古老的分类方法之一了,在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。因为研究透了感知机模型,学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型,再学习神经网络,深度学习,也是一个很好的起点。这里对感知机的原理做一个小结。1. 感知机模型感知机的思想很简单,比如我们在一个平台上有很多的男孩女孩,感知机的模型就是尝试找到一条...

2018-06-21 10:30:23 538

原创 【算法周】光说不练都是假的!K-means实践篇来啦~

欢迎关注哈希大数据微信公众号《哈希大数据》1. K-Means类概述在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法,对应的类是MiniBatchKMeans。一般来说,使用K-Means的算法调参是比较简单的。用KMeans类的话,一般要注意的仅仅就是k值的选择,即参数n...

2018-06-20 14:49:36 1360

原创 【算法周】人以类聚咋个聚!K-means了解一下~(下篇)

欢迎关注哈希大数据微信公众号《哈希大数据》接上篇4.K-Means距离计算优化elkan K-Means在传统的K-Means算法中,我们在每轮迭代时,要计算所有的样本点到所有的质心的距离,这样会比较的耗时。那么,对于距离的计算有没有能够简化的地方呢?elkan K-Means算法就是从这块入手加以改进。它的目标是减少不必要的距离的计算。那么哪些距离不需要计算呢?elkan K-Means利用了两...

2018-06-19 09:32:18 255

原创 【算法周】人以类聚咋个聚!K-means了解一下~(上篇)

欢迎关注哈希大数据微信公众号《哈希大数据》上一周我们给大家讲了四篇机器学习的扫盲篇,把机器学习需要的一些常识以及需要的计算机环境理了一遍,这一周我们的系列名称是【算法周】!!毕竟算法是机器学习的灵魂嘛~~今天我们给大家介绍算法的Chaper1——K-means~ 由于篇幅较长本次介绍分为上下两篇K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means...

2018-06-18 16:57:50 334

原创 【科普周】想lu代码不知道怎么搭环境??

前面为大家介绍了机器学习入门要学的基础知识、算法和概念。但我想撸机器学习的代码该怎么办?初来乍到不知道怎么配机器学习的环境呀!莫慌莫慌,哈希本次为大家讲讲 Windows环境中如何搭建Python机器学习环境。为啥只讲Windows环境?你都用linux了,还搞不定这个环境呀?别哭别哭搞不定也很正常,linux毕竟自带的Python是2.7版本,咱们想用3.5版本的还要自己装,里面又涉及到多版本共...

2018-06-17 15:48:07 330

原创 【科普周】看图学机器学习(下篇)

欢迎关注哈希大数据微信公众号《哈希大数据》昨天介绍了看图学机器学习的前五个,今天我们继续学习!!!6. Basis functions(基础函数)非线性基础函数是如何将没有线性边界的低维分类问题转化为具有线性边界的高维分类问题。Andrew Moore的支持向量机SVM(Support Vector Machine)教程幻灯片中有:一个单维度的非线性带有输入x的分类问题转化为一个2维的线性可分的z...

2018-06-16 07:59:47 268

原创 【科普周】看图学机器学习(上篇)

关注哈希大数据微信公众号《哈希大数据》昨天我们讲了机器学习的“入坑指南”,今天我们给大家介绍机器学习专家Deniz Yuret用10张漂亮的图来解释机器学习的重要概念,哈希在这里给大家普及一下,同时加一些自己的见解!本次看图学机器学习分为上下篇,下篇将在明天推出。1.Test and training error(测试集误差和训练集误差)    为什么训练集误差不是越低越好呢?上图以模型复杂度为变...

2018-06-15 09:19:22 385

原创 【科普周】入坑须知—机器学习扫盲篇(二)

欢迎关注哈希大数据微信公众号《哈希大数据》上一篇给大家介绍了有监督学习、无监督学习、和强化学习的含义和例子,这些可能还不够具体,机器学习博大精深本期咱们继续看看机器学习还有哪些好玩的点?想要入门机器学习你该怎么做?有哪些好的资料可以帮助大家尽快入门?废话不多说咱们开始吧!01 机器学习的应用目前机器学习在以下场景应用非常火热:1.推荐系统网易云音乐每日推荐、每个人淘宝APP的首页都不一样这就是它对...

2018-06-14 08:49:37 732

原创 【科普周】机器学习扫盲篇(一)

欢迎关注哈希大数据微信公众号《哈希大数据》机器学习的概念    机器学习(machine learning),从字面上来看可分为机器和学习两部分,其中机器是指电脑、pad、手机等一切可以处理数据的电子设备(计算机);学习是指机器为获得解决问题能力所做出的行为(学习是智能生物的基本特征之一),即设计一些让计算机可以自动“学习”的算法,以便从输入(输出)的数据中习得经验获取规律,进一步将其转换成知识,...

2018-06-13 10:25:15 562

原创 【机器学习+python(9)】回归决策树

欢迎关注哈希大数据微信公众号《哈希大数据》上次分享我们简单介绍了分类决策树的基本原理和算法实现。决策树算法是在全部数据集中通过迭代的方式选择最佳属性进行不断切分,直至切分后的小数据集中目标属于同一类,或者到满足停止切分条件时完成数据划分。在分类树切分数据时,主要是对单个离散目标值进行概率统计后用gini指数值来衡量某一属性的数据集纯度,进而选择使gini值最小的属性特征作为划分结点。但是这种方式,...

2018-06-12 08:16:23 4808

原创 【机器学习+python(8)】分类决策树的介绍与实现

欢迎关注哈希大数据微信公众号【哈希大数据】       之前我们介绍过用逻辑回归根据鸢尾花萼片、花瓣的长度和宽度进行鸢尾花类别的判定;也通过朴素贝叶斯模型分享了如何根据男生专业和身高两大属性,判断其是否有女朋友。而本期我们将介绍另外一种有监督的机器学习分类模型----决策树(也可以实现基本的回归),重点介绍决策树的基本原理和实现,并且借助python的sklearn库中的决策树算法实现上述两类数据...

2018-06-11 09:01:14 678

原创 【机器学习+python(7)】手动获取随机数据

欢迎关注哈希大数据微信公众号【哈希大数据】生成特定分布的随机数据本期导读:机器学习中,模型的训练和构建是一个算法的核心所在。但是当我们手边没有合适的数据时该如何进行算法的设计呢?因此本节将为大家介绍:随机数据的获取方式生成特定分布的数据存储生成的随机数据本文是机器学习系列的第7篇干货,约1396字,预计阅读时间约5分钟。1使用numpy生成数据numpy适合用来生产一些简单的抽样数据。需要使用的模...

2018-06-10 09:12:39 491

原创 【机器学习+python(6)】朴素贝叶斯告诉你这样的男生会有女朋友

欢迎关注哈希大数据微信公众号【哈希大数据】朴素贝叶斯告诉你什么样的男生有女朋友当迎面走来一个身材高挑、且金发碧眼的小姐姐,在这样的外貌特点下,定会在心中默叹俄罗斯姑娘真好看;当我们看到天空乌云密布,电闪雷鸣并阵阵狂风,在这样的天气特征下,我们会推断大概是要下雨了;基于一些特定的条件或特征,大多数人都会产生一个共同的反应。而这正是朴素贝叶斯(Naive Bayesian)最核心的理念。因此本节我们将...

2018-06-09 09:15:52 455

原创 【python+机器学习(5)】

欢迎大家关注公众号【哈希大数据】1、二元分类问题概述机器学习可以实现的两大核心点是分类预测和回归预测。在之前的分享中我们介绍了连续数据的线性回归预测问题。但是在实际生活中,我们所面对的许多问题往往是非连续的分类问题,比如医生根据一些指标判断病人是否可以康复、企业根据用户行为分析用户是否会流失、警察根据嫌疑人的特征来判定其是否为罪犯等。这些只有“是、否”两种结果的问题均属于两元分类问题。在机器学习中...

2018-06-08 15:23:07 340

原创 【python+机器学习(4)】多维数据的特征选取(Ridge&&Lasso)

欢迎关注哈希大数据微信公众号【哈希大数据】在之前我们介绍了直接使用线性回归进行波士顿房价的预测,但是预测准确率仅有60%左右。预测准确率不高一方面是我们未对数据进行一定的预处理(包括归一化和标准化等),这样不能确保在使用优化方式时,对不同特征参数起到同样的影响。 其次是未深入挖掘数据特征间关系,比如当原始数据某些特征与目标值不具有线性关系时,不应当纳入训练模型中。而且数据特征之间可能存在共线性等其...

2018-06-07 20:45:14 5382

原创 【python+机器学习(3)】房屋数据可视化分析

机器学习中有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们无限逼近这个上限。如果不能深刻了解数据特征,将无法建立更精准的机器学习模型或算法,也就不能帮助我们获取最优的学习结果。因此想要更好的了解数据特征,我们便需要在数据分析前期对数据进行大量的预处理和特征分析工作。本节我们将从数据预处理和可视化查看数据特性来重点介绍波士顿房价数据的特征,进而为接下来模型的设计建立基础。1....

2018-06-06 19:31:52 1937 5

原创 【python+机器学习(2)】python实现Linear Regression

欢迎关注哈希大数据微信公众号《哈希大数据》想必大家在很早之前就接触过函数的概念,即寻找自变量和因变量之间的对应关系,一元一次、多元一次、一元二次等等,表示的就是变量间具有线性、非线性,相关关系或无关关系等。同样的在机器学习中,一个重要而且很常见的问题就是学习特征变量(自变量)与响应变量(因变量)之间的函数关系,进而对新出现的变量进行结果预测。这种寻找连续变量与目标结果间关系的方式称之为回归,与上节...

2018-06-05 10:06:40 1199 3

原创 【python+机器学习1】python 实现 KNN

欢迎关注【哈希大数据】1 KNN算法基本介绍K-Nearest Neighbor(k最邻近分类算法),简称KNN,是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法,即开始训练仅仅是保存所有样本集的信息,直到测试样本到达才开始进行分类决策。KNN算法的核心思想:要想确定测试样本属于哪一类,就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后判断这K个样本中大部分所属的类型,就认为...

2018-06-03 09:27:45 601

原创 【小白学爬虫连载(14)】--scrapy分布式部署

欢迎关注【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连载(8)】...

2018-06-02 18:09:49 446

原创 【小白学爬虫连载(13)】--Scrapy如何突破反爬虫

欢迎关注【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连载(8)】...

2018-06-01 19:03:41 697

原创 【小白学爬虫连载(12)】--获取免费高匿代理IP

欢迎关注【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连载(8)】...

2018-05-31 10:20:41 8050 1

原创 【小白学爬虫连载(11)】--pyquery库详解

pyquery库详解前面的分享如何获取免费高匿代理IP代码中我们用到了pyquery这个解析库,这个库在之前的分享中还不曾讲到,前面我们主要用的是beautiful soup解析库,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,可以选择使用pyquery,它的语法相对更为简单。下面我们看看该如何使用它吧!本次分享将从以下四个方面介绍pyquery库:如何安装pyquery如何初始化如...

2018-05-30 11:10:17 415

原创 【小白学爬虫连载(10)】--如何用Python实现模拟登陆网站

欢迎关注【哈希大数据】获取详细信息!!!【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白...

2018-05-29 09:18:01 384

原创 【小白学爬虫连载(9)】--scrapy构架设计分析

欢迎大家关注公众号【哈希大数据】 欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】-...

2018-05-28 10:21:17 287

原创 【小白学爬虫连载(8)】--scrapy框架入门教程

欢迎大家关注公众号【哈希大数据】 欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Be...

2018-05-27 11:05:47 364

原创 【小白学爬虫连载(7)】--scrapy框架的安装

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-26 09:53:36 193

原创 【小白学爬虫连载(6)】--Selenium库详解

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-25 16:21:03 319

原创 【小白学爬虫连载(5)】--Beautiful Soup库详解

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-24 19:55:59 335

原创 【小白学爬虫连载(4)】-如何使用chrome分析目标网站

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-23 16:16:36 872

原创 【小白学爬虫连载(3)】--正则表达式详细介绍

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-21 09:39:15 316

原创 【小白学爬虫连载(2)】--Requests库介绍

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-19 22:57:35 328

原创 【小白学爬虫连载(1)】-爬虫框架简介

欢迎大家关注公众号【哈希大数据】【小白学爬虫连载(1)】-爬虫框架简介【小白学爬虫连载(2)】--Requests库介绍【小白学爬虫连载(3)】--正则表达式详细介绍【小白学爬虫连载(4)】-如何使用chrome分析目标网站【小白学爬虫连载(5)】--Beautiful Soup库详解【小白学爬虫连载(6)】--Selenium库详解【小白学爬虫连载(7)】--scrapy框架的安装【小白学爬虫连...

2018-05-18 21:19:23 410

原创 【小白福利、快速入门Python】之内置函数

欢迎大家关注公众号【哈希大数据】【白话python连载(1)】 一起遇见python【白话python连载(2)】 Python的程序结构【白话python连载(3)】 Python的输入输出实例【白话python连载(4.1)】 python的数据类型【白话python连载(4.2)】 python的数据类型【白话python连载(5)】 python的条件语句【白话python连载(6)】 p...

2018-05-17 20:11:15 1994 1

原创 【白话python连载(9.2)】 python的os模块

欢迎大家关注公众号【哈希大数据】【白话python连载(1)】 一起遇见python【白话python连载(2)】 Python的程序结构【白话python连载(3)】 Python的输入输出实例【白话python连载(4.1)】 python的数据类型【白话python连载(4.2)】 python的数据类型【白话python连载(5)】 python的条件语句【白话python连载(6)】 p...

2018-05-15 09:07:39 1888 1

原创 【白话python连载(9.1)】 使用python处理文件

欢迎大家关注公众号【哈希大数据】【白话python连载(1)】 一起遇见python【白话python连载(2)】 Python的程序结构【白话python连载(3)】 Python的输入输出实例【白话python连载(4.1)】 python的数据类型【白话python连载(4.2)】 python的数据类型【白话python连载(5)】 python的条件语句【白话python连载(6)】 p...

2018-05-14 09:47:25 1750

原创 【白话python连载(8)】 python的异常处理

欢迎大家关注公众号【哈希大数据】【白话python连载(1)】 一起遇见python【白话python连载(2)】 Python的程序结构【白话python连载(3)】 Python的输入输出实例【白话python连载(4.1)】 python的数据类型【白话python连载(4.2)】 python的数据类型【白话python连载(5)】 python的条件语句【白话python连载(6)】 p...

2018-05-13 14:39:02 1332 2

原创 【白话python连载(7.2)】python的模块介绍

欢迎大家关注公众号【哈希大数据】python的模块介绍----动手打包共享一、模块的定义与生成python模块是一个包含定义的变量、函数和类的文件,其后缀名是.py。特点:模块可以被其他程序导入,以使用该模块中定义的类,函数是模块中对应类的方法,而变量则是类的属性。为了防止不同模块中变量名的重复和冲突,python中通常采用“包”形式即文件目录结构来管理不同的模块。只要顶层的目录文件名不同,就可以...

2018-05-12 16:37:53 215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除