机器学习
文章平均质量分 81
onlyfansnft.art
人生苦短,我用Python
展开
-
『机器学习』相关资料
1、[天池代码分享&思路沉淀]机器学习常见的算法面试题总结2、新人必看!在这里完成从菜鸟到数据大神的进阶原创 2016-12-28 23:55:34 · 448 阅读 · 0 评论 -
『机器学习实战』使用 k-近邻算法改进约会网站的配对效果
算法:from numpy import *import operatordef createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels def classify0(inX,原创 2017-10-31 10:14:33 · 360 阅读 · 0 评论 -
『机器学习实战』使用 k-近邻算法识别手写数字
算法:from numpy import *import operatordef createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels def classify0(inX,原创 2017-10-31 14:20:20 · 445 阅读 · 0 评论 -
『xgboost』使用注意事项
1、xgboost 不支持时间类型特征原创 2017-12-01 09:12:09 · 870 阅读 · 0 评论 -
『数据稽核』的相关知识
1、异方差异方差性(heteroscedasticity )是相对于同方差而言的。所谓同方差,是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性2、数据完整性存储在数据库中的所有数据值均正确的状态。如果数据库中原创 2017-12-04 12:01:57 · 1486 阅读 · 0 评论 -
林轩田机器学习笔记
1、应用机器学习的三个关键:①存在规则(规律)②没办法写成机器能够理解的规则(规律)③有足够包含有①中的规则(规律)的数据原创 2017-11-26 00:27:36 · 515 阅读 · 0 评论 -
经验风险函数和结构风险函数
1、损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分2、结构风险函数包括了经验风险函数和正则项原创 2018-01-30 11:48:29 · 1103 阅读 · 0 评论 -
机器学习术语概念
1、参数模型对数据分布(distribution,density)有假设,而非参数模型对数据分布假设自由(distribution-free),但是对数据必须可以排序(rank,score)。所以,回顾二者的名字“参数”,即指数据分布的参数。原创 2018-02-27 14:10:36 · 462 阅读 · 0 评论 -
机器学习面试题
1、请列举Random Forest和GBDT的区别原创 2018-03-01 15:23:39 · 447 阅读 · 0 评论 -
为什么要划分训练集、验证集、测试集?
训练集、验证集、测试集的定义如下:训练集:用来学习的样本集,用于分类器参数的拟合。验证集:用来调整分类器超参数的样本集,如在神经网络中选择隐藏层神经元的数量。测试集:仅用于对已经训练好的分类器进行性能评估的样本集。引用于:业界 | 似乎没区别,但你混淆过验证集和测试集吗?在我们使用验证集作为调整模型的超参数的时候,其实是在让模型拟原创 2018-02-24 14:43:29 · 6318 阅读 · 0 评论 -
『机器学习实战』使用朴素贝叶斯过滤垃圾邮件
代码:#! usr/bin/env python# coding: utf-8from numpy import *def loadDataSet(): postingList = [ ['my', 'dog', 'has', 'flea', \ 'problems', 'help', 'please'], ['maybe', 'not', 'tak原创 2017-11-08 10:11:44 · 1781 阅读 · 0 评论 -
『机器学习实战』决策树
代码:#! /usr/bin/env python# coding: utf-8from math import logimport operatordef calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in dataSet: currentLabel = f原创 2017-11-07 14:25:57 · 389 阅读 · 0 评论 -
『机器学习』工业级实践经验汇总
1、在建模时,测试文件(用来测试各种数据预处理方法、特征选择方法、模型,用来找最好的组合)不需要跟最终定版文件进行区分,因为前者是在建模时使用到的,而最终定版文件是在前者完成后才建立的原创 2017-09-26 10:27:29 · 584 阅读 · 0 评论 -
统计学知识复习
1、均匀分布没有众数2、异常值的定义:①小于Q1(四分位数)- 1.5*IQR(四分位差Q3 - Q1) ②大于 Q3 + 1.5*IQR3、当数据分布左偏或右偏时,mean 可能不在 IQR 中4、IQR 无法反映全部数据5、离均差:Σ(Xi - mean)6、平均偏差:Σ(Xi - mean) / n原创 2017-01-08 02:28:44 · 547 阅读 · 0 评论 -
『数据挖掘、机器学习』 常用算法思路、原理、公式、优缺点
1、朴素贝叶斯分类算法思路:通过计算在已知样本特征 X 下,该样本被分类为 CiC_i 类的概率,并取取得最大的概率的类为该样本所属分类假设:假设每个特征相互独立公式:P(Ci|X)=P(Ci)∏nk=1P(xk|Ci)∑ni=1P(Ci)P(X|Ci)(1) P(Ci|X) = \frac{P(C_i)\prod_{k=1}^{n}P(x_k|C_i) }{\sum_{i=1}^{n}P(C_i)原创 2017-03-13 16:42:46 · 800 阅读 · 0 评论 -
『机器学习』评估方法
1、留出法(hold out):将数据集 D 划分为训练集 S 和测试集 T2、留一法:留一法是留出法的特例,即每次测试集 T 只留一个数据,剩下的作为训练集 S备注:在分类任务中,在划分数据集时,训练集 S 和测试集 T 中的类别比例要跟数据集 D 中的类别比例相似。备注的疑问:那么在划分样本类别不均衡的样本时,是否仍要遵守这样的准则??3、K折交叉验证(k-fold cross validati原创 2017-05-11 14:27:43 · 3090 阅读 · 0 评论 -
『机器学习』机器学习中涉及到的数学公式
1、卡方检验x2=∑ni=1(Ai−n∗pi)2n∗pix^{2} = \sum_{i=1}^{n}\frac{(A_{i} - n*p_{i})^{2}}{n*p_{i}} AiA_{i}:代表某个类别的观察频数 npinp_{i}:是基于 H0H_{0} 计算的期望频数 H0H_{0}:观察频数与期望频数没有差别原创 2017-05-08 11:44:01 · 1794 阅读 · 0 评论 -
『推荐系统实战——王亮』阅读笔记
1、推荐方式①社会化推荐②基于内容的推荐③协同过滤2、推荐系统的组成①前台的展示页面②后台的日志系统③推荐算法系统3、个性化推荐的成功应用需要两个条件①信息过载②用户没有明确的需求,因为如果有明确的需求就可以直接通过搜索引擎来找到备注:然而事实上即使是有明确的需求,在搜索引擎中找到符合自己想要的东西仍然需要耗费较大的成本,因为搜索引擎只是把范围缩小了,而并没有直接提供最符合我们的情况的搜索结果4、个原创 2017-05-27 14:16:42 · 849 阅读 · 0 评论 -
随机森林
1、随机森林中的概率是怎么算的? 如果是分类问题,则输出为所有树中预测概率总和最大的那一个类,即对每个c(j)的p进行累计;如果是回归问题,则输出为所有树的输出的平均值。 2、决策树的分类概率是怎么算的? 将max(P(i))对应的分类作为当前叶节点的分类原创 2017-05-22 16:10:52 · 1050 阅读 · 0 评论 -
『机器学习算法』集成学习——AdaBoost
1、基本属性a、算法名称英文名:AdaBoost中文名:b、属于分类、回归或其它算法中的哪种类别属于分类算法c、属于有监督、无监督、半监督的哪种类别属于有监督d、对于数据分布是否有要求,如果有,要求是哪种分布?e、是否属于集成学习方法,如果是,基学习器是否可以并行运行属于集成学习方法;不可以并行运行,只可以串行运行f、适应于哪种类型的原创 2017-08-07 20:00:25 · 2066 阅读 · 0 评论 -
机器学习数据集
UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。Amazon AWS公开数据集:包含的通常是大型数据集,可通过Amazon S3访问。这些数据集包括人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams。相关原创 2017-07-27 11:07:27 · 1137 阅读 · 0 评论 -
word2vec 的相关概念
1、word2vec 的概念word2vec :将词映射到一个词空间中,故 word2vec 被称为词嵌入;并且以词空间的维度组成一个向量,故 word2vec 也被称之为词向量。2、word2vec 的来源word2vec 来源于词的分布假说,词的语义由其上下文所决定。思考:词的语义并不一定是由其上下文所决定的,例如说话人的语气也会导致不同的意思,以及不同身份的人说同样的话也会导...原创 2018-09-14 15:00:57 · 408 阅读 · 0 评论