机器学习算法系列
文章平均质量分 90
河南骏
搬砖大阳
展开
-
Ubuntu18.04 安装xgboost GPU版配置
CUDA安装首先要到英伟达官网下载对应版本cuda工具包,使用GPU需要有cuda。配置好环境变量1)在~/.bashrc中添加如下 export PATH = /usr/local/cuda-11.1/bin:$PATHexport LD_LIBRARY_PATH = /usr/local/cuda-11.1/lib64:$LD_LIBRARY_PATH 使环境变量生效 source ~/.bashrc2)配置 /etc/ld.so...原创 2021-01-08 10:18:56 · 1008 阅读 · 0 评论 -
python多线程与多进程
最近在单机服务器上用python跑一个机器学习模型,数据量在千万级别,运行时间跑了1个半小时,而且服务器的CPU利用率很低。就想到用多线程和多进程来并行加速跑程序,原先就只知道一点模糊的概念,还没有真正实现过,趁着这个机会就好好研究下python的多线程和多进程。多线程python的多线程虽然是真正的线程,但解释器执行代码时,有一个GIL锁:Global interpreter lock。任何python线程执行前,必须获得GIL锁,然后执行每执行100字节码,解释器自动释放GIL锁,让别的线程有机原创 2020-12-25 16:06:47 · 226 阅读 · 0 评论 -
机器学习中数值型特征做特征归一化
今天去某外卖平台面试机器学习算法工程师,二面时面试官问到数值型特征工程,提到归一化,按常规想法就是MinMaxScaler或Zscore。本以为回答完美,但被面试官追问,为什么做归一化,做与不做,有什么区别?这让我猝不及防,就按自己的理解说,某些特征的数值相较其他特征数值范围差异大,在算法的训练中,对结果受影响。面试官又问什么程度是大?被这追问问的头皮发麻。后面又提到数值型特征也可以用对数?又被问...原创 2018-07-30 20:55:43 · 1468 阅读 · 0 评论 -
随机梯度下降概述
翻译 2018-06-27 17:39:39 · 277 阅读 · 0 评论 -
模型选择与调优
模型选择,请看sklearn经典的这张图:模型选择:交叉验证:交叉验证集做参数/模型选择;测试集制作模型效果评估。超参数选择:交叉验证选取sklearn.grid_search.GridSearchCV不同模型状态处理:过拟合:找更多的数据来学习;增大正则化系数;减少特征个数;欠拟合:找更多特征;减小正则化系数。模型融合:1、bagging,随机森林(分类:vote;回归:取平均)2、模型stac...原创 2018-06-27 17:11:28 · 391 阅读 · 0 评论 -
机器学习的特征工程
机器学习流程:收据收集----->数据清洗------->特征工程-------->数据建模特征=>数据抽取出来的对结果预测有用的信息特征工程师使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。特征工程的意味着更强的灵活度,不需复杂的模型,得到更好的结果。现实中,复杂模型的算法精进都是数据科学家在做,大部分童靴是跑数据,清洗数据,分析业务,分析...原创 2018-06-27 16:45:19 · 749 阅读 · 0 评论 -
谷歌Cloud AutoML自动机器学习平台初步研究
一、AutoML背景机器学习(Machine Learning, ML)技术近年来已取得较大成功,越来越多行业领域依赖它。但目前成功的关键还需依赖人类机器学习工程师完成以下工作:预处理数据选择适当的功能选择适当的模型系列优化模型超参数后处理机器学习模型严格分析所得的结果以上工作的复杂性通常超过了非机器学习专家的能力,随着机器学习应用的快速增长对自动机器学习方法产生了需求。目前,世界上只有小部分企业...原创 2018-04-13 15:25:28 · 5016 阅读 · 0 评论 -
推荐系统的那些事
最近根据项目组需要,研究一下推荐系统,这个推荐系统我也是没有什么头绪的,看了一些资料,总结一下,下面是我的笔记,不喜请喷,大家一起学习:原创 2018-02-02 16:54:24 · 352 阅读 · 0 评论 -
决策树与随机森立案(python code)---------------------------机器学习系列(二)
前面一篇大致讲解了一下有关决策树与随机森林的理论部分,这一篇我们就来电实际的,讲一下python怎么实现决策树与随机森林的,这部分的code有一点简单,应该可以更好的理解这个算法。 首先是模块的导入,涉及的模块有 import numpy as np import matplotlib.pyplot as plt import原创 2017-06-27 11:47:38 · 1516 阅读 · 1 评论 -
决策树与随机森林算法(理论)-----------------------机器学习系列(二))
在讲解算法之前,先铺垫一下算法涉及的内容:熵:H(X)=−∑x∈Xp(x)logp(x)联合熵:H(X,Y)=−∑x∈X,y∈Yp(x,y)logp(x,y)条件熵:H(X|Y)=−∑x∈X,y∈Yp(x,y)logp(x|y)相对熵:D(p||q)=∑xp(x)logp(x)q(x)互信息:I(X,Y)=∑x∈X,y∈Yp(x,y)logp(x,y)p(x)p(y)Gini系数:原创 2017-06-26 14:50:34 · 2976 阅读 · 0 评论 -
sklearn ------------机器学习的万能钥匙
数据加载首先,数据要被加载到内存中,才能对其操作。Scikit-Learn库在它的实现用使用了NumPy数组,所以我们将用NumPy来加载*.csv文件。让我们从UCI Machine Learning Repository下载其中一个数据集。Pythonimport numpy as npimport urllib# url with dataseturl转载 2017-06-13 14:44:46 · 1347 阅读 · 0 评论 -
回归算法(理论)----------机器学习系列(一)
回归算法的理论知识详解原创 2017-06-13 14:15:21 · 667 阅读 · 0 评论 -
K近邻(KNN)算法---------------------------机器学习系列(三)
K近邻(KNN)算法,是学习《机器学习实战》的第一个算法,也是最简单的一个分类方法。它的工作原理:存在一个样本数据集合,也就是训练样本,并且样本集中的每个数据都存在已知的标签,即我们知道数据集中的每个数据与标签的对应关系。现在输入没有标签的新数据,将新数据的每个特征与数据集中的每个数据的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说我们只选择前K个最相似的数据,通常原创 2017-07-10 11:59:23 · 504 阅读 · 0 评论 -
回归算法(python code)----------机器学习系列(一)
回归算法---code原创 2017-06-19 16:08:19 · 6433 阅读 · 0 评论