机器学习
文章平均质量分 91
从最基础的知识点出发,一点一点的学习相关内容,重新整理以前零散学习过的东西,夯实基础。
程序员白总
软件开发工程师
展开
-
sklearn学习之使用sklearn进行特征选择
在本节中我们将使用sklearn.feature_selection模块中的类在高维度的样本集上进行特征选择、降维来提升估计器的性能。1. Removing features with low variance方差选择法sklearn.feature_selection.VarianceThreshold(threshold=0.0)方差选择法是一种进行特征选择的简单的baseline方法,...原创 2018-10-27 15:56:12 · 8015 阅读 · 1 评论 -
使用sklearn预处理数据之标准化、归一化、正则化
sklearn.preprocessing是sklearn库中非常重要的一个module,集成了很多预处理数据的方法,今天对常用的几个加以解释说明。二值化sklearn.preprocessing.binarizer(threshold=0.0, copy=True)对数据根据给定的阈值将其映射到0和1,其中阈值默认为0.0,可接收float类型的阈值,注意数据大于阈值的时候映射为1,小于等...原创 2018-10-24 17:27:46 · 17961 阅读 · 1 评论 -
机器学习项目完整流程
机器学习项目的完整流程1 模型抽象对于实际生活中的复杂事物来说,如果要使用机器学习方法来解决,对实际问题进行建模,将其抽象为数学问题是首要的工作。下面举几个简单例子预测本地明天的天气首先你需要利用生活常识和收集资料得到的专业知识,知道可能会对天气有影响的因素;然后去收集数据,明确自己的目的。是想使用过去的天气情况来预测明天的气温范围呢,还是单纯的想知道明天会不会下雨,会不会有雾霾。根据你的...原创 2018-10-21 21:39:38 · 3335 阅读 · 0 评论 -
机器学习实习面试经历
面试对象一家天津做大数据的科技有限公司EQ测试题,10道,选择 三道简答题 1.简要写出浅层机器学习和深层机器学习的开发流程,并阐述它们的区别 2.写出你了解的经典的CNN模型及其特点,并谈谈深度学习未来可能的发展趋势 3.考虑如下问题: 有一些样本,被人工标注为A、B两类,现在发现这些样本中有一些同时属于A和B的样本,在不重新标注的情况下,怎样高效的识别出同属于A、B类的...原创 2018-09-12 08:56:11 · 1053 阅读 · 0 评论 -
图解机器学习基础知识
原创 2018-09-27 10:15:13 · 182 阅读 · 0 评论 -
深入学习周志华机器学习西瓜书之第三章:线性模型(线性回归,逻辑回归,线性判别分析,多分类,类别不平衡问题)
本文主要是对周志华的西瓜书机器学习第三章内容线性模型的学习记录。首先给出线性模型的一般形式,然后从回归问题到二分类问题,再到多分类问题,最后是分类问题中出现的类别不平衡问题进行了阐述。回归问题分为一元回归和多元回归,从多元回归过渡到对数几率回归,这是一种解决分类问题的简单有效的算法;然后LDA可以用于二分类和多分类,也可以作为一种有监督的降维手段;多分类问题可以通过分解为多个二分类问题来解决,而类别不平衡问题也可以通过欠采样、过采样和阈值移动来解决。原创 2018-09-14 10:11:27 · 2008 阅读 · 0 评论 -
支持向量机学习笔记
支持向量机(support vector machine)作为一种流行了足足十多年的机器学习算法,其拥有的可解释性,常常在面试中被用来考察面试者对于机器学习算法的理解。对于支持向量机的介绍、深入理解的书籍、论文和文章多如牛毛,其中不乏大牛的著作,本文并不会详细阐述SVM的详细推导过程,而是试图从SVM的出现、发展、演变过程来提炼出一套对于发明机器学习算法的一般思路。对于本文来说,SVM的提出过程中...原创 2018-09-21 22:50:41 · 289 阅读 · 0 评论 -
NLP岗位面试总结
1. NLP工程师的职责和工作内容注:以下五个问题难度递增分类问题:文本分类、情感分析(二分类和多分类);匹配问题:检索与某句话类似的话,或者与它相关的回答。如kaggle的quora question pairs比赛;翻译问题:文本翻译;结构化预测:将一段文本转化为结构化的输出序列,如将文本中的词进行词性标注,语法树生成;人机对话:建模为马尔科夫决策过程,当前要采取的动作和上一个状...原创 2019-01-05 21:30:32 · 4134 阅读 · 0 评论