机器学习
Ry风度
这个作者很懒,什么都没留下…
展开
-
机器学习 --- GBDT提升算法(Gradient Boosting)
Gradient Boosting以梯度为优化目标,以提升将整个架构串在一起,用决策树当做模型细节中的每一个小部分分类回归树(CART)数据集:{((x(1),y(1)),(x(2),y(2)),...,(x(m),y(m)))}\begin{Bmatrix}((x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)}))\end{B...原创 2020-05-03 23:49:26 · 786 阅读 · 0 评论 -
机器学习 --- 支持向量机(Support Vector Machine)推导+实例
支持向量机(Support Vector Machine)支持向量机要解决的问题要解决的问题:什么样的决策边界才是最好的呢?以一个二分类问题为例,对于两个类别,可以有多种决策边界,需要找到一个最好的那个决策边界特征数据本身如果就很难分,怎么办呢?使用核函数计算复杂度怎么样?能实际应用吗?目标:基于上述问题对SVM进行推导决策边界:需要选出来Large Marg...原创 2020-05-03 15:15:54 · 727 阅读 · 0 评论 -
机器学习入门 --- 特征编码
机器学习入门 — 数值特征原创 2020-04-24 00:27:57 · 873 阅读 · 1 评论 -
机器学习入门 --- LDA与PCA算法(公式推导、纯python代码实现、scikit-learn api调用对比结果)
为什么要做降维:提高计算效率留存有用的特征,为后续建模使用在项目中实际拿到的数据,可能会有几百个维度(特征)的数据集,这样的数据集在建模使用时,非常消耗计算资源,所以需要通过使用降维方法来优化数据集线性判别算法(Linear Discriminant Analysis)用途:数据预处理中的降维,分类任务目标:LDA关心的是能够最大化类间区分度的坐标轴成分将特征空间(数...原创 2020-04-20 22:53:10 · 1145 阅读 · 0 评论 -
机器学习入门 --- K-means、DBSCAN聚类算法(概念、图解、代码示例)
聚类概念聚类是把相似的东西分到一组,它是一个无监督问题,没有标签使用难点:对于有标签的有监督学习问题,标签可以便于我们来评估模型,无监督学习问题在评估上比较难一点对于不同的参数组合,得到的学习结果,因为比较难对模型做评估,所以不能通过一个精确度的好坏来选择参数组合K-MEANS算法K-MEANS算法是聚类问题中,最简单,也是最实用的一个算法基本概念一个数据放进来,需要指定K值,来声...原创 2020-04-10 00:16:20 · 4910 阅读 · 0 评论 -
机器学习入门 --- 贝叶斯 - 中文新闻分类任务
文本分析停用词语料中大量出现,但没有大的用处Tf-idf 关键词提取TF−IDF=词频(TF)∗逆文档频率(IDF)TF-IDF = 词频(TF)*逆文档频率(IDF)TF−IDF=词频(TF)∗逆文档频率(IDF)假设拿到一个文章:《中国的蜜蜂养殖》进行词频(Term Frequency,缩写为TF)统计词频(TF)=某个词在文章中的出现次数该文章中总词量词频(TF) = \fra...原创 2020-04-09 00:35:07 · 674 阅读 · 0 评论 -
机器学习入门 --- 贝叶斯算法
贝叶斯要解决的问题:正向概率:假设袋子里面有N个白球,M个黑球,伸手进去摸球,摸出黑球的概率是多大逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测例:条件:在一个学校中,男生占60%,女生占40%,男生总是穿长裤,女生则一半穿长裤一半穿裙子问题:正向概率:随机选...原创 2020-04-06 17:13:21 · 314 阅读 · 0 评论 -
机器学习入门 --- 基于随机森林的气温预测(三)随机森林参数选择
本文中将针对树模型的参数进行优化数据预处理前面已经做过好几次数据预处理了,这里直接上代码得到数据# 导入工具包import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_split# 读取数据features = pd.read_csv('data/temps_extend...原创 2020-04-06 00:27:52 · 3803 阅读 · 3 评论 -
机器学习入门 --- 基于随机森林的气温预测(二)数据与特征对随机森林的影响
机器学习入门 — 基于随机森林的气温预测(二)数据与特征对随机森林的影响原创 2020-04-05 22:52:57 · 4520 阅读 · 3 评论 -
机器学习入门 --- 基于随机森林的气温预测(一)使用随机森林算法完成基本建模任务
我们要完成三项任务:使用随机森林算法完成基本建模任务基本任务需要我们处理数据,观察特征,完成建模并进行可视化展示分析观察数据量与特征个数对结果影响在保证算法一致的前提下, 加大数据个数,观察结果变换。重新考虑特征工程,引入新特征后观察结果走势。对随机森林算法进行调参,找到最合适的参数掌握机器学习中两种经典调参方法,对当前模型进行调节# Pandas is used for dat...原创 2020-04-04 23:53:34 · 22182 阅读 · 16 评论 -
机器学习入门 --- 集成算法
python数值运算abs() 取绝对值round() 取整max() 取最大值min() 取最小值python字符串split() 字符串切分1.有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?for i in range(1,5): for j in range(1,5): for k in range(1,5): ...原创 2020-04-04 01:20:43 · 230 阅读 · 0 评论 -
机器学习入门 --- 决策树算法
决策树算法概述决策树从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归决策树从根节点开始到叶子节点中的判断条件是有先后的,要先进行尽可能对的分类任务,再往下的做更加细致的分类(微调)树的组成根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果决策树的训练与测试训练阶段:从给定的训练集构造出来一棵树(从跟节点...原创 2020-04-01 01:25:20 · 260 阅读 · 0 评论 -
机器学习入门 --- 逻辑回归 信用卡欺诈检测实战
基于信用卡的交易记录数据建立分类模型,预测交易记录是否正常分类整体流程任务流程加载数据,观察问题查看数据是否有缺失值、异常值或者无法直接使用的值针对问题给出解决方案根据数据用途提前构思,做出方案再进行预处理数据集切分为了对学习结果进行评估评估办法对比逻辑回归模型使用Sklearn工具包建模建模结果分析参数调整方案效果对比主要解决问题读入所需数据data = p...原创 2020-03-30 23:49:04 · 1519 阅读 · 1 评论 -
机器学习入门 --- 根据推导公式使用Python实现梯度下降与逻辑回归
我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。import ospath = 'data' + os.sep + 'Logi...原创 2020-03-30 01:37:07 · 410 阅读 · 0 评论 -
机器学习入门 --- 逻辑回归算法(公式推导)
逻辑回归算法原理逻辑回归算法是一个分类算法,经典的二分类算法在机器学习中,关于算法的选择:先逻辑回归再用复杂的,能简单还是用简单的逻辑回归的决策边界:可以是线性的,也可以是非线性的Sigmoid 函数公式:g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}g(z)=1+e−z1特点:自变量取值为任意实数,值域[0,1]解释:将任意的输入映射到了[0,1]...原创 2020-03-28 01:37:05 · 720 阅读 · 0 评论 -
机器学习入门 --- 梯度下降原理(公式推导)
梯度下降概述梯度下降是机器学习中的一种真正的求解的思路(优化算法)引入当我们得到了一个目标函数后,如何进行求解?直接求解?并不一定可解,线性回归可以当做是一个特例,在所有的机器学习问题当中,除了线性回归中可以直接求解,其他问题是无法直接解出最终的真实答案常规套路机器学习的套路就是交给机器一堆数据,然后告诉它以什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做如何优化求当前...原创 2020-03-28 00:29:24 · 900 阅读 · 1 评论 -
机器学习入门 --- 线性回归算法(公式推导)
线性回归问题概述在本文中,将根据这个银行贷款的数据例子,进行回归问题的公式推导工资年龄额度40002520000800030700005000283500075003350000120004085000此数据的特征变量有两个,分别是工资、标签是银行给的贷款额度,也就是我们想要得到的目标 — 预测银行会贷款给我多少钱在这个...原创 2020-03-27 23:33:04 · 969 阅读 · 0 评论 -
机器学习入门 --- K近邻算法实战(Sklearn库与KNN)
K近邻算法概述这是机器学习中的第一个算法,也是机器学习中的入门级别算法既可以做分类,也可以做回归K近邻 — 选择最相近的,K的含义:去找K个最相近的数据import pandas as pd#指定features,截取整个数据包的部分特征features = ['accommodates','bedrooms','bathrooms','beds','price','minimum_...原创 2020-03-27 01:51:41 · 675 阅读 · 1 评论