![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
文章平均质量分 85
DataScience
每天一点点,在AI领域不断深入
展开
-
机器学习算法2_逻辑回归
文章目录1 逻辑回归1.1 概念1.2 推导方法1.2.1 模型 - Sigmoid 分布函数1.2.2 目标函数 - 对数损失函数1.2.3 求解方法1.2.3.1 梯度下降法1.2.4 性能度量2 Softmax2.1 概念2.2 推导方法2.2.1 模型2.2.2 目标函数2.2.3 求解方法2.2.4 性能度量3 sklearn3.1 例子3.2 参数说明4 优缺点5 与线性回归对比6 疑...原创 2018-10-11 13:41:50 · 254 阅读 · 0 评论 -
林轩田机器学习基石课程笔记1 -The Learing Problem
最近在看NTU林轩田的《机器学习基石》课程,个人感觉讲的非常好。整个基石课程分成四个部分:When Can Machine Learn?Why Can Machine Learn?How Can Machine Learn?How Can Machine Learn Better?每个部分由四节课组成,总共有16节课。那么,从这篇开始,我们将连续对这门课做课程笔记,共...转载 2019-01-08 20:51:41 · 312 阅读 · 0 评论 -
林轩田机器学习基石 - 练习1 - PLA算法 & Pocket PLA算法
文章目录详细代码文件加载PLA算法 和 Pocket PLA算法调用实例 todo本文主要是针对 练习1 的注释详细代码文件加载import numpy as npdef loadfile(file): X = [] # features, shape = (samples, features) Y = [] # labels, shape = (sample,) ...原创 2019-01-23 20:36:58 · 621 阅读 · 0 评论 -
林轩田机器学习基石课程笔记3 - 机器学习类型
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket Algorithm来处理。本节课将主要介绍一下机器学习有哪些种类,并进行归纳。一、Learning with Different Output Space Y我们在上节课引入的银行根据用户个人情况判断是否给他发信用卡的例子,这是一个典...转载 2019-01-12 16:31:21 · 134 阅读 · 0 评论 -
林轩田机器学习基石课程笔记2 - 学习回答Yes/No
上节课,我们主要简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f。本节课将继续深入探讨机器学习问题,介绍感知机Perceptron模型,并推导课程的第一个机器学习算法:Perceptron Learning Algorithm(PLA)。...转载 2019-01-12 16:28:01 · 204 阅读 · 0 评论 -
机器学习基石作业 PLA算法 & Pocket PLA算法
作业1:PLA算法首先,我们使用人工数据集来研究PLA。数据集在 https://www.csie.ntu.edu.tw /~htlin/course/ml15fall/hw1/hw1_15_train.dat数据集的每一行包含一个(x n,y n),其中xn∈R4。该行的前4个数字包含x n有序的分量,最后一个数字是y n。请使用w = 0初始化算法,并将sign(0)设为-1。...原创 2019-01-06 16:42:38 · 1162 阅读 · 0 评论 -
《南瓜书》 chapter4
4.1熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。假定当前样本集合 DDD 中第 kkk 类样本所占的比例为 pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,∣y∣) ,则 DDD 的信息熵为:(4.1)Ent(D)=−∑k=1∣y∣pklog2pkEnt(...原创 2019-01-10 23:57:34 · 525 阅读 · 0 评论 -
机器学习算法 - 时间序列系2 - 时序模式实战
直接贴一波代码,详细后面再分析#!/usr/bin/env python3# -*- coding: utf-8 -*-# pylint: disable=E1101"""Create原创 2018-12-18 23:21:35 · 683 阅读 · 0 评论 -
机器学习算法 - 时间序列系1 -时序模式概念
时序模式1 时间序列算法2 时间序列的预处理2.1 平稳性检验2.2 纯随机性检验3 平稳时间序列分析3.1 AR模型3.2 MA模型3.3 ARMA模型3.4 平稳时间序列模型4非平稳时间序列分析4.1 差分运算4.2 ARIMA模型5 Python主要事需模式算法1 时间序列算法2 时间序列的预处理首先要对观察值序列做纯随机性和平稳性进行校验,称为序列的预处理。对于纯随机序列(白噪声...原创 2018-12-17 23:19:18 · 1267 阅读 · 0 评论 -
林轩田机器学习基石 - 学习笔记4 - 机器学习的可行性
上节课,我们主要介绍了根据不同的设定,机器学习可以分为不同的类型。其中,监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题。本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决。一、Learning is Impossible首先,考虑这样一个例子,如下图所示,有3个label为-1的九宫格和3个label为+1的九宫格。根据这6个样本,提取相应label下的...转载 2019-01-27 22:42:23 · 185 阅读 · 0 评论 -
李宏毅机器学习入门学习笔记(一)Regression - Case Study
文章目录定义应用举例建模详细步骤模型假设(Model)(Goodness of function)定义Regression 就是找到一个函数 functionfunctionfunction ,通过输入变量 xxx,输出一个数值 ScalarScalarScalar。应用举例股市预测(Stock market forecast)输入:过去10年股票的变动、新闻咨询、公司并购咨询等...原创 2019-02-18 12:24:40 · 1272 阅读 · 1 评论 -
李宏毅机器学习入门学习笔记(六) Brief Introduction of Deep Learning
deep learning的趋势:Google使用deep learning回顾一下deep learning的历史:deep learning的发展perceptron非常像我们的logistics regression只不过是没有sigmoid部分。09年的GPU的发展是很关键的,节省了很多的时间。我们都知道机器学习有三个step,那么对于deep learning呢?ste...原创 2019-04-02 21:05:11 · 518 阅读 · 0 评论 -
李宏毅机器学习入门学习笔记(五) Classification:Logistic Regression
文章目录Step1 逻辑回归的函数集Step2 定义损失函数Step3 寻找最好的function为什么不学线性回归用平方误差?Discriminative(判别)v.s. Generative(生成)一个好玩的例子判别(Discriminative)方法不一定比生成(Generative)方法好Multi-class Classification(多类别分类)Softmax为什么Softmax的...原创 2019-03-08 18:52:53 · 541 阅读 · 0 评论 -
李宏毅机器学习入门学习笔记(四) Classification:Probabilistic Generative Model
文章目录Classification 分类又是神奇宝贝举例分类神奇宝贝如何分类?当作回归问题处理?Ideal Alternatives(理想替代品)盒子抽球抽球的概率和分类有什么关系?Prior 先验高斯分布应用最大似然估计开始分类修改model三大步为什么是高斯分布?Posterior Probability(后验概率)Classification 分类分类要找一个function,输入就...原创 2019-03-07 18:12:36 · 614 阅读 · 0 评论 -
李宏毅机器学习入门学习笔记(三)Gradient Descent
文章目录什么是Gradient Descent(梯度下降法)?Review: 梯度下降法Tip1:调整 learning rates(学习速率)小心翼翼地调整 learning rate自适应 learning rateAdagrad 算法Adagrad 是什么?Adagrad举例Adagrad 存在的矛盾?多参数下结论不一定成立Adagrad 进一步的解释Tip2:Stochastic Grad...原创 2019-02-19 19:48:50 · 799 阅读 · 0 评论 -
李宏毅机器学习入门学习笔记(二)Where does the error come from
课程介绍上节课《李宏毅·机器学习》读书笔记(一)Regression - Case Study,主要介绍了回归算法的整个演算过程。在课程最后为了改善模型,不断提升模型的复杂度,但是效果反而变差了。本节课主要介绍其他改善模型的方法,并介绍交叉验证这种模型选择的方案。Error的来源从上节课测试集数据来看,Average ErrorAverage\ ErrorAverage&am原创 2019-02-19 13:10:29 · 285 阅读 · 0 评论 -
Datawhale 《南瓜书》
想法以西瓜书为主线,目前先内部推开一个demo原创 2018-12-22 02:46:00 · 7214 阅读 · 2 评论 -
Datawhale 算法实战第1期 Task 1.1
文章目录文档记录002003代码解释x与y的处理模型参数模型存储文档记录编号文档002报告 http://t.cn/Eye5LH2 代码: http://t.cn/Eye5Atx003http://t.cn/EyFC6md004http://t.cn/EyFjDqB005http://t.cn/EyFYzJi006007008...原创 2018-12-10 13:13:05 · 240 阅读 · 0 评论 -
机器学习 scikit-learn4 预测贷款用户是否会逾期 - xgboost 和 lightgbm
bak原创 2018-11-24 13:07:23 · 592 阅读 · 0 评论 -
机器学习 scikit-learn2 预测贷款用户是否会逾期 - 逻辑回归
逻辑回归预测贷款用户是否会逾期我们提升算法实践能力的【整个思路】是这样的:构建模型——>模型融合——>模型评估——&amp原创 2018-11-17 10:46:57 · 994 阅读 · 0 评论 -
机器学习 scikit-learn3 预测贷款用户是否会逾期 - 支持向量机和决策树
文章目录参考文档参考文档[1] Feature Engineering for Machine Learning - 书本翻译[2] 特征处理 - 七月在线[3] 特征选择[4] 缺失值处理原创 2018-11-20 22:45:20 · 636 阅读 · 2 评论 -
机器学习 scikit-learn1 预测贷款用户是否会逾期
逻辑回归预测 贷款用户是否会逾期文章目录逻辑回归预测 贷款用户是否会逾期1 环境准备1.1 导入所需的数据包2 特征工程 - 简单数据预处理2.1 确认目前数据量和预测数据占比2.2 简单分析数据表数据2.3 明确需要进行处理的数据3 构建模型3.1 划分测试集和训练集3.2 标准化 归一化处理3.3 构建模型 并训练3.5 模型评估我们提升算法实践能力的【整个思路】是这样的:构建模型——&g...原创 2018-11-16 09:23:43 · 1997 阅读 · 0 评论 -
panda 表合并
文章目录示例1:依据一组key合并示例2:依据两组key合并示例3:Indicator示例4:依据index合并示例5:解决overlapping的问题参考链接import pandas as pd示例1:依据一组key合并# 定义资料集并打印出left1 = pd.DataFrame({ 'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A...转载 2018-11-06 09:07:21 · 1228 阅读 · 0 评论 -
kaggle 经典案例掌握机器学习算法的通用流程
文章目录目录1 通过 kaggle 经典案例掌握机器学习算法的通用流程1.1 机器学习应用领域1.2 机器学习常用算法1.3 常用工具1.4 建模与问题解决流程1.4.1 解决问题流程1.4.2 数据预处理(清洗,调权)1.4.3 特征工程、模型选择、交叉验证1.4.3.1 特征工程1.4.3.2 模型选择1.4.3.4 交叉验证1.4.4 模型分析、模型融合1.4.4.1 模型分析【模型状...原创 2018-10-25 19:20:58 · 1597 阅读 · 0 评论 -
机器学习算法3_支持向量机(SVM)
支持向量机通俗导论(理解SVM的三层境界)前言第一层:了解SVM1.1 分类标准的起源:Logistic回归1.2 线性分类的一个例子第二层:深入SVM第三层:证明SVM前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写...转载 2018-10-16 22:38:55 · 285 阅读 · 0 评论 -
机器学习算法1_线性回归
文章目录1 线性回归1.1 概念1.2 推导方法1.2.1 模型 - 线性回归方程1.2.2 目标函数 - 平方损失函数1.2.3 求解方法1.2.3.1 最小二乘法 - 代数求解(一元)1.2.3.2 最小二乘法 - 矩阵求解(多元)1.2.4 性能度量1.3 sklearn 实现1 线性回归1.1 概念利用称为线性回归方程的最小二乘函数对 一个或者多个自变量 和 因变量 之间关系进行建...原创 2018-10-06 10:22:48 · 617 阅读 · 0 评论 -
机器学习 scikit-learn5 - 预测贷款用户是否会逾期 - 模型性能评估
bak原创 2018-11-24 13:07:48 · 1208 阅读 · 1 评论 -
机器学习 scikit-learn6 - 预测贷款用户是否会逾期 - 特征工程
bak原创 2018-11-24 13:08:08 · 800 阅读 · 0 评论 -
机器学习 模型评估中的 精确率、召回率、F1、ROC、AUC
文章目录1 混淆矩阵1.2 多分类的例子2.2 二分类的例子二分类真实数值计算:1 混淆矩阵准确率对于分类器的性能分析来说,并不是一个很好地衡量指标,因为如果数据集不平衡(每一类的数据样本数量相差太大),很可能会出现误导性的结果。例如,如果在一个数据集中有95只猫,但是只有5条狗,那么某些分类器很可能偏向于将所有的样本预测成猫。整体准确率为95%,但是实际上该分类器对猫的识别率是100%,而对...原创 2018-12-14 23:58:59 · 1187 阅读 · 0 评论 -
机器学习算法 - 时间序列系3 - Python主要时序模式算法列表
文章目录参考文章Python主要时序模式算法列表acf()方法详解plt_acf()方法详解pacf()方法详解plot_acf()方法详解adfuller()方法详解diff()方法详解ARIMA()方法详解summary() & summaty2()方法详解aic/bic/hqic 方法详解froecast()方法详解acorr_ljungbox()方法详解算法实践分析参考文章ht...原创 2018-12-19 21:59:54 · 1133 阅读 · 0 评论 -
27. 移除元素 Remove Element
文章目录题目:移除元素 Remove Element参考答案题目:移除元素 Remove Element给定一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1:给定 num...原创 2018-12-01 20:42:43 · 2644 阅读 · 0 评论 -
机器学习 Python基础2 Pandas DataFrame 常用方法实践
Pandas DataFrame 常用方法实践常见的对象类型【pandas.core.series.Series】【pandas.core.frame.DataFrame】【pandas.core.indexes.datetimes.DatetimeIndex】日期对象常用方法实践1) reindex() 重新索引2) drop() 丢弃数据3) 索引、选取和过滤4) 算术运算和数据对齐5) 函数...原创 2018-11-29 23:11:06 · 430 阅读 · 0 评论 -
机器学习 Python基础1 Pandas DataFrame 常用方法速查手册中文版
本文转载自文章:https://zhuanlan.zhihu.com/p/25630700英文版 Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。Pandas速查手册中文版导入数据导出数据创建测试对象查看、检查数据数据选取数据清理数据处理:Filter、Sort和GroupBy数据合并数据统计对于数据科学家,无论是数据分析还是数据...转载 2018-11-29 21:37:43 · 1078 阅读 · 1 评论 -
机器学习 scikit-learn9 - 预测贷款用户是否会逾期 - 特征筛选 IV 和 随机森林
特征挑选1 说明2 代码使用方法3 核心代码说明3.1 IV值挑选特征3.2 随机森林挑选特征3.3 训练模型得到结果3.4 训练模型输出结果4 结果对比5 问题1 说明主要是根据 IV值 和 随机森林 这两种方法来挑选特征代码链接: https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/features/fe...原创 2018-11-29 01:08:41 · 852 阅读 · 0 评论 -
机器学习 scikit-learn8 - 预测贷款用户是否会逾期 - Stacking模型融合【调包】
网络搜索 - 目录1 说明2 代码使用方法3 核心代码说明4 问题参考文章1 说明在做逻辑回归的最初就有尝试做网络搜索,找到最佳的特征组合代码链接: https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/for beginner/stacking.py2 代码使用方法【必须】先执行 features 中的...原创 2018-11-25 17:58:07 · 2876 阅读 · 3 评论 -
机器学习 scikit-learn7 - 预测贷款用户是否会逾期 - 网络搜索 交叉验证
bak原创 2018-11-24 13:18:31 · 351 阅读 · 0 评论 -
Mysql 刷题记(经典42题)
文章目录数据表ER图如下表结构创建测试数据学生表 Student科目表 Course教师表 Teacher成绩表 SC我使用的Mysql版本是5.7.19。答案可能会因版本会有少许出入。数据表ER图如下表结构学生表:Student(SId,Sname,Sage,Ssex)SId 学生编号Sname 学生姓名Sage 出生年月Ssex 学生性别课程表:Course(...原创 2019-05-17 10:40:00 · 476 阅读 · 0 评论