机器学习
文章平均质量分 65
码不停题Elon
这世界从来就只有强者的奋斗史,而没有弱者的墓志铭!
展开
-
大数据&算法工程师知识点大全
下面内容为自己找工作的过程中,自己整理的知识点以及从别人面经中整理的知识点大全,对其中的大部分问题,我都会给出我认为最优答案的csdn链接(ps:本篇博客正在整理过程中,会不定期更新一些新的知识点的答案,希望可以帮到更多的同学!最新更新于2019-9-25)【1】在github上找到了一个2018/2019/校招/春招/秋招/自然语言处理(NLP)/深度学习(Deep Learning)/机...原创 2018-04-04 10:53:08 · 4384 阅读 · 1 评论 -
自然语言处理资源及机器学习面试题目大全
先说说面试,我深深的觉得刷题检验自己知识和巩固知识的方式,推荐如下:那些深度学习《面试》你可能需要知道的如何准备机器学习工程师的面试 ?七月在线实验室---BAT机器学习面试题如何准备机器学习工程师的面试 ?读完这21个机器学习面试问题和答案,入职率提升99%....等等我觉得上面很多问题可以很好的检查下自己掌握那些算法到什么样的水平。然后是推荐我学自然语言处理时的书籍和教材,我觉得自然语言工程师...转载 2018-04-11 10:42:35 · 3607 阅读 · 0 评论 -
Pandas速查手册中文版
本文翻译自文章:Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网站。(1)官网...转载 2018-04-08 21:32:35 · 697 阅读 · 0 评论 -
协方差与相关系数 numpy中cov与corrcoef的使用
协方差与相关系数协方差与相关系数协方差相关系数1.协方差如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何? 你变...转载 2018-03-20 20:34:23 · 2403 阅读 · 0 评论 -
XGBoost、LightGBM的详细对比介绍
sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是:bagging基本思想独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树),然后综合他们的预测结果,通常集成模型的效果会优于基学习器,因为模型的方差有所降低。常见变体(按照样本采样方式的不同划分)Pasting:直接从样本集里随机抽...转载 2018-03-20 19:27:11 · 1955 阅读 · 0 评论 -
支持向量机(SVM)必备知识(KKT、slater、对偶)
SVM目前被认为是最好的现成的分类器,SVM整个原理的推导过程也很是复杂啊,其中涉及到很多概念,如:凸优化问题、拉格朗日乘子法、对偶问题,slater条件、KKT条件还有复杂的SMO算法!相信有很多研究过SVM的小伙伴们为了弄懂它们也是查阅了各种资料,着实费了不少功夫!本文便针对SVM涉及到的这些复杂概念进行总结,希望为大家更好地理解SVM奠定基础。一、凸集和凸函数在讲解凸优化问题之前我们先来了解...转载 2018-03-20 19:24:46 · 969 阅读 · 0 评论 -
评价分类器性能指标之AUC、ROC
前言曾经面试的时候被问到过这么一个问题,怎么向一个没有任何计算机、数学、统计等基础的人介绍下什么是AUC,当时我败北了。不过后来我有一天顿悟了,为了检验我的顿悟是否有效,特此一答。我给出的答案是 AUC是指 随机给定一个正样本和一个负样本,分类器输出该正样本为正的那个概率值 比 分类器输出该负样本为正的那个概率值 要大的可能性。作者:小小丘链接:https://www.zhihu.com/ques...转载 2018-03-23 15:00:03 · 3387 阅读 · 0 评论 -
GBDT:梯度提升决策树
综述GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。 GBD...转载 2018-03-11 21:19:48 · 412 阅读 · 0 评论 -
七种回归技术
摘要:本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等...翻译 2018-03-17 20:13:34 · 442 阅读 · 0 评论 -
ridge、lasso、ElasticNet回归
在使用机器学习方法进行预测时,往往会出现这种情况:训练出的模型在训练集上的效果很好,但是在测试集上的效果很差,这种情况称为过拟合;如果模型本身在训练集上的效果就很差,这种情况称之为欠拟合。为了防止过拟合的现象出现,学者对线性回归进行了优化,于是产生了ridge、lasso还有ElasticNet回归,下面我们分别介绍这三种回归。首先让我们了解一下ridge回归。在线性回归(二)-线性回归公式推导中...翻译 2018-03-17 19:25:55 · 2599 阅读 · 0 评论 -
logistic regression逻辑回归算法详解
1.参考资料这次不同的是,我要先列举几个自己参考的文献,博客等。真的是从里面受益匪浅,这也是我主要的参考资料。如果有需要的童鞋,可以先看它们。1).http://blog.csdn.net/zouxy09/article/details/24971995/(讲L0,L1,L2范数讲的不错哦)2).机器学习实战(Machine Learning in Action),Peter Harrington...转载 2018-03-17 17:27:15 · 1864 阅读 · 0 评论 -
逻辑回归优缺点简单分析
优点:1)预测结果是界于0和1之间的概率;2)可以适用于连续性和类别性自变量;3)容易使用和解释;缺点:1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,...转载 2018-03-03 21:27:19 · 21167 阅读 · 0 评论 -
机器学习中Bagging和Boosting的区别
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1. Bagging (bootstrap aggregating)Bagging即套袋法,其算法过程如下:从原...转载 2018-03-10 20:56:04 · 411 阅读 · 0 评论 -
机器学习中的范数规则化之L0、L1与L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监督机器学习问题无非就是“minimizeyour error while regula...原创 2018-03-16 16:31:39 · 489 阅读 · 0 评论 -
Python scikit-learn机器学习工具包学习笔记:cross_validation模块
sklearn.cross_validation模块的作用顾名思义就是做crossvalidation的。crossvalidation大概的意思是:对于原始数据我们要将其一部分分为train data,一部分分为testdata。train data用于训练,test data用于测试准确率。在test data上测试的结果叫做validationerror。将一个算法作用于一个原始数据,我们不...转载 2018-03-15 15:08:22 · 392 阅读 · 0 评论 -
决策树之剪枝原理与CART算法
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014688145/article/details/53326910决策树学习笔记(二)前言继续关于决策树的内容,本篇文章主要学习了决策树的剪枝理论和基于二叉树的CART算法。主要内容:理解决策树损失函数的定义以及物理含义基尼指数的主要两个作用理解CART剪枝原理,以及它的基本假设和核心思想决策树的...转载 2018-04-04 19:37:01 · 1380 阅读 · 0 评论 -
pandas使用get_dummies进行one-hot编码
离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码[python] view plain copyimport pandas as pd...转载 2018-04-19 14:17:53 · 574 阅读 · 0 评论 -
怎么解决数据倾斜问题?
本文面向的读者是从事数据分析、数据处理(ETL)等相关工作的朋友们,相信大家在工作中一定遇到过数据倾斜的问题,读完本文,你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见倾斜场景及解决办法等知识,相信对你今后处理数据倾斜问题会有一定的帮助。目前流行的大数据相关的计算框架之所以能够处理大量的数据和计算,基本上都是依赖分布式计算的思想,即由一个通过某种组织关系连接在一起的集群来共同完...原创 2019-04-19 14:35:32 · 5624 阅读 · 0 评论 -
推荐系统系列三:推荐系统冷启动
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。===================正文开始================...原创 2019-04-11 16:38:47 · 3706 阅读 · 0 评论 -
推荐系统系列一:推荐系统介绍
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。===================正文开始===================一,推荐系...原创 2019-04-07 20:04:21 · 13434 阅读 · 3 评论 -
推荐系统系列二:推荐系统的工程实现
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。 在我更新第一篇《推荐系统介绍》之后,过了一两天这篇介绍的阅读量就达到了三百多,可见...原创 2019-04-10 13:37:31 · 3566 阅读 · 1 评论 -
TF-IDF 介绍
最近在学习主题分类的内容,下面是关于TF-IDF通俗易懂的介绍。任务一:现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop w...转载 2019-02-21 15:08:03 · 548 阅读 · 0 评论 -
先验概率、后验概率与似然估计--通俗易懂的解释
本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。堵车的概率就是先验概率 。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率...转载 2018-10-24 16:41:28 · 3440 阅读 · 2 评论 -
机器学习中常用的损失函数你知多少?
转自机器之心公众号!本文作者将常用的损失函数分为了两大类:分类和回归。然后又分别对这两类进行了细分和讲解,其中回归中包含了一种不太常见的损失函数:平均偏差误差,可以用来确定模型中存在正偏差还是负偏差。机器通过损失函数进行学习。这是一种评估特定算法对给定数据建模程度的方法。如果预测值与实际结果偏离较远,损失函数会得到一个非常大的值。在一些优化函数的辅助下,损失函数逐渐学会减少预测值的误差...转载 2018-09-12 14:10:15 · 1222 阅读 · 0 评论 -
Kaggle 数据清洗挑战 Day 1~Day5
本文系转发自:https://blog.csdn.net/cyan_soul前些天报名参加了 Kaggle 的 Data Cleaning 5天挑战,5天的任务如下:Day 1: Handling missing valuesDay 2: Data scaling and normalizationDay 3: Cleaning and parsing datesDay 4: Fixing enc...转载 2018-07-13 17:08:27 · 613 阅读 · 0 评论 -
Windows10中使用Anaconda安装keras-gpu版本【入坑经验总结】
【注】本教程是在已经安装tensorflow-gpu1.7.0基础上,安装keras-gpu版本的一些经验!第一次安装keras的时候,也不清楚什么cpu版本的还有gpu版本的,就百度按照别人的方法直接使用命令conda install keras进行安装,结果。。。它弹出来了提示说还需要附带安装theano以及tensorflow1.1.0版本以及其他几个库,什么也不懂,就同意了,结果在跑ker...原创 2018-04-26 14:02:40 · 11299 阅读 · 2 评论 -
Windows环境下安装TensorFlow并在Jupyter notebook上使用
在成功安装tensorflow之后,在Anaconda Prompt中activate tensorflow之后,输入python,再输入import tensorflow as tf可以正确运行,但是在jupyter notebook上import的时候一直报错说找不到tensorflow模块,网上找了找解决办法,发现是我们只有在tensorflow环境下才可以打开notebook才可以正确im...转载 2018-04-26 11:44:49 · 1248 阅读 · 0 评论 -
windows10 64位 Tensorflow安装--CUDA 9.1+cuDNN7.1+python3.6.4+tensorflow-GPU1.7.0安装详解
一、前言vs2017安装请见博主文章:vs2017安装和使用教程(详细)Anaconda安装可见博主文章:Anaconda安装二、改动1.我在Anaconda文章里写的Tensorflow是针对于CUDA8.0来说的,因此安装的是py3.52.CUDA9.0是官方Tensorflow的最新版本,那么好不容易装好的CUDA9.1就泡汤了。但是,世上无难事,只怕有心人!3.接下来我为大家展示CUDA9...原创 2018-04-25 23:36:22 · 3055 阅读 · 0 评论 -
关于jupyter notebook的kernel error的问题
最近打开jupyter notebook发现内核错误【kernal error】 FileNotFoundError: [WinError 2] The system cannot find the file specified,查了资料原来是我中午用conda删除了一些环境,所以牵涉到这个jupyter notebook,可能是路径问题,导致文件找不到。最终找到解决方法:在cmd运行:pytho...转载 2018-04-25 23:30:42 · 3151 阅读 · 0 评论 -
windows10下使用nvidia-smi查看GPU使用情况
nvidia-smi所在的位置为:C:\Program Files\NVIDIA Corporation\NVSMIcmd进入目录输入命令即可:具体如下所示:重要的参数主要是温度、内存使用、GPU占有率,具体如下红框所示。...原创 2018-04-25 18:38:47 · 35549 阅读 · 7 评论 -
OneHotEncoder独热编码和 LabelEncoder标签编码
学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。首先了解机器学习中的特征类别:连续型特征和离散型特征 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w2*x2...原创 2018-04-19 16:30:37 · 4312 阅读 · 0 评论 -
ElasticNet回归及机器学习正则化(linear_model.ElasticNetCV)
要想理解ElasticNet回归,正则化是必须要首先知道的,其次是岭回归和Lasso回归,知道了这些,弹性网回归自然也就明白了。首先来看正则化:假设我们都知道利用最小二乘法来做线性回归,最小二乘法回归成功的条件是(我得承认以下的所有图都是我盗的):即上面这个函数(损失函数,目前也是目标函数)达到最小值,可得到最优的拟合参数(即θ )。但是存在这样一种情况,如果我们用来拟合的自变量过多(或者说特征变...转载 2018-03-15 14:36:44 · 6139 阅读 · 2 评论 -
pandas使用笔记
DataFrame使用笔记dates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数,索引,列名称。df2=pd.DataFrame({'A':pd.Timestamp('201607...转载 2018-03-08 19:48:05 · 363 阅读 · 0 评论 -
python pandas中.isnull().any()含义
问题描述: python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置。首先对于存在缺失值的数据,如下所示import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.ra...转载 2018-03-08 19:07:44 · 51439 阅读 · 0 评论 -
逻辑回归假设函数,代价函数的由来
逻辑回归:我们知道,线性回归可以预测一个数值,但是这个数值的大小呢,不一定,然而对于分类问题,我们想要得到0或者1,怎么办? 拿这张图片的例子来说,我们想要预测这两类,可以明显的找到一条线性回归直线分开他们,但这时候我们不再需要什么预测数值,我们只想要0和1。假如现在我们找到了这条线,然后,线上方的红叉类元素带入直线方程后一定大于0;线下方的绿色圈圈元素带入直线方程原创 2017-12-29 20:42:01 · 3704 阅读 · 1 评论 -
逻辑回归代价函数及其梯度下降公式
前言在上一篇随笔里,我们讲了Logistic回归cost函数的推导过程。接下来的算法求解使用如下的cost函数形式:简单回顾一下几个变量的含义:表1 cost函数解释x(i)每个样本数据点在某一个特征上的值,即特征向量x的某个值y(i)每个样本数据的所属类别标签m样本数据点的个数原创 2017-12-29 20:35:17 · 5641 阅读 · 3 评论 -
线性回归与之梯度下降
本文会讲到:(1)线性回归的定义(2)单变量线性回归(3)cost function:评价线性回归是否拟合训练集的方法(4)梯度下降:解决线性回归的方法之一(5)feature scaling:加快梯度下降执行速度的方法(6)多变量线性回归Linear Regression 注意一句话:多变量转载 2017-12-29 20:28:11 · 279 阅读 · 0 评论 -
对机器学习中学习曲线的理解
下面将就学习曲线是一条关于样本个数和经验损失函数之间的曲线,对机器学习中的过程进行判断,进一步调整学习参数,提高假设模型的泛化能力给出解释说明。在上面的图中,蓝线表示经验损失函数随着训练样本的增多而变大,相反绿线呈现出反向的关系。绿线是交叉验证样本,计算交叉验证的样本损失函数使用到的权值参数是由训练样本得到的,与该权值参数保持一致。从图中可以看出无论是蓝线还原创 2017-12-29 19:58:54 · 1712 阅读 · 0 评论 -
学习曲线、机器学习系统的设计
关键词 学习曲线、偏差方差诊断法、误差分析、机器学习系统的数值评估、大数据原理概要 本周内容分为两讲: 第一讲.Advice for applying machine learning,主要内容是关于偏差、方差以及学习曲线为代表的诊断法,为改善机器学习算法的决策提供依据; 第二讲.Machin原创 2017-12-29 19:55:30 · 368 阅读 · 0 评论 -
深入理解主成分分析PCA原理
1 概述真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项转载 2018-01-02 20:42:28 · 5901 阅读 · 3 评论