秀球Gang-CSDN博客

原创「Python」Python 标准库之 itertools 使用指南

Python 标准库之 itertools 使用指南0 前言1 无限迭代器 infinite iteratorscountcyclerepeat2 有限迭代器 Iterators terminating on the shortest input sequenceaccumulatechainchain.from_iterablecompressdropwhilefilterfalsegroupbyislicepairwisetakewhileteezip_longest3 组合迭代器 Combinator

2021-07-30 18:20:47 2088

原创「吃瓜记」第6章支持向量机

「吃瓜记」第6章支持向量机6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法参考资料6.1 间隔与支持向量算法原理：从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面，相比于感知机，其解是唯一的，且不偏不倚，泛化性能好。支持向量 support vector：距离超平面最近的这几个训练样本点使上式的等号成立。间隔 margin：两个异类支持向量到超平面的距离之和。欲找到具有**最大间隔(maximum margi

2021-07-30 00:07:08 211

原创「吃瓜记」第5章神经网络

「吃瓜记」第5章神经网络5.1 神经元模型5.2 感知机与多层网络5.3 误差逆传播算法5.4 全局最小与局部最小5.5 其他常见神经网络5.6 深度学习参考资料5.1 神经元模型神经网络 neural networks：由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。神经元模型 neuron：神经网络中最基本的单元。M-P神经元模型：神经元接收到n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接传递给细胞体，神经元接收到的总

2021-07-25 23:05:23 241

原创「吃瓜记」第4章决策树

「吃瓜记」第4章决策树4.1 基本流程4.2 划分选择4.2.1 ID3决策树4.2.2 C4.5决策树4.2.3 CART算法4.3 剪枝处理4.4 连续与缺失值参考资料4.1 基本流程算法原理从逻辑角度，一堆 if else 语句的组合从几何角度，根据某种准则划分特征空间关键：如何选择最优划分属性最终目的：将样本约分约“纯”决策树的构造是一个递归的过程，有三种情形会导致递归返回：当前结点包含的样本全属于同一类别，这时直接将该节点标记为叶节点，并设为相应的类别；当前属性集为空，或

2021-07-22 23:42:14 159

原创「吃瓜记」第3章线性模型

「吃瓜记」第3章线性模型3.1 基本形式3.2 线性回归3.3 对数几率回归3.4 线性判别分类3.5 多分类学习3.6 类别不平衡问题参考资料3.1 基本形式线性模型：试图学得一个通过属性的线性组合来进行预测的函数，即：一般用向量形式写成：在线性模型的基础上通过引入层级结构或高维映射可得到许多功能更为强大的非线性模型（nonlinear model）。w 直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性（comprehensibility）。3.2 线性回归线性回归 li

2021-07-19 22:47:31 146

转载「吃瓜记」第2章模型评估与选择

「吃瓜记」第2章模型评估与选择2.1 经验误差与过拟合2.2 评估方法2.2.1 留出法 hold-out2.2.2 交叉验证法 cross validation2.2.3 自助法 bootstrapping2.3 性能度量2.4 比较验证2.5 偏差与方差参考资料2.1 经验误差与过拟合错误率 error rate：分类错误的样本占样本总数的比例。精度 accuracy：1 - 错误率。误差 error：学习器的实际预测输出与样本的真实输出之间的差异。训练误差/经验误差 training/em

2021-07-13 23:55:21 83

原创「吃瓜记」第1章绪论

「吃瓜记」第1章绪论1.1 引言1.2 基本术语1.3 假设空间1.4 归纳偏好参考资料1.1 引言机器学习(machine learning)是什么？定义：机器学习是致力于研究如何通过计算的手段，利用经验（数据）来改善系统自身的性能的学科。研究的主要内容：是从数据中产生“模型”的算法，即”学习算法“(learn algorithm)。目标：使学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好。1.2 基本术语示例/样本 sample：数据集中的每条记录是关于一个事件或对象

2021-07-13 22:45:48 77

转载深度学习小白如何看懂神经网络模型/图？

深度学习小白如何看懂神经网络模型/图？神经网络的图还是比较容易看懂的，比电路图什么的要好懂多了。只是刚开始接触有些不习惯罢了，多看一些就好了。下面举几张神经网络图作为例子（由简单到复杂）。简单的3层网络下图是一个非常简单的3层网络。首先，我们注意到有一些圆形，它们表示神经元。然后，竖着看，这些神经元组成的“列”称为网络层。灰色的神经元构成输入层和输出层，中间黑色的神经元构成隐藏层。然后，神经元之间有一些线互相连接，这些线称为连接。在上图中，每层中的每个神经元都和下一层中的每个神经元连接，这称为

2021-04-20 14:23:00 6327 1

原创「Python」利用第三方库 googletrans 进行文本翻译

# Python3.6+, install the googletrans using:# pip install googletrans# import Translator to detect language and translate...from googletrans import Translator# Customize service URLtranslator = Translator(service_urls=['translate.google.cn'])def t

2020-10-19 14:04:59 994

原创「Python」Python 标准库之 json 模块

Python 标准库之 json 模块JSON简介json模块基本使用json.dump()json.dumps()json.load()json.loads()第三方库simplejsonJSON简介JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript（Standard ECMA-262 3rd Edition - December 1999）的一个子集。 JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯（包括

2020-09-28 14:58:53 332

原创「数据科学」天池金融风控-贷款违约预测模型融合

天池金融风控-贷款违约预测模型融合1. 学习目标2. stacking / blending详解3. 代码示例3.1 平均3.2 投票3.3 Stacking：3.4 blending4. 经验总结1. 学习目标上四篇文章介绍了天池“金融风控-贷款违约预测”的赛题分析、数据分析、特征工程和建模调参。「机器学习」天池金融风控-贷款违约预测赛题分析「数据科学」天池金融风控-贷款违约预测数据分析「数据科学」天池金融风控-贷款违约预测特征工程「数据科学」天池金融风控-贷款违约预测建模调参该篇文章为第五

2020-09-28 01:06:21 1237 1

原创「数据科学」天池金融风控-贷款违约预测建模调参

天池金融风控-贷款违约预测建模调参1. 学习目标2. 模型相关原理介绍2.1 逻辑回归模型2.2 决策树模型2.3 GBDT模型2.4 XGBoost模型2.5 LightGBM模型2.6 Catboost模型2.7 时间序列模型2.8 推荐教材3. 模型对比与性能评估3.1 逻辑回归3.2 决策树模型3.3 集成模型集成方法 (ensemble method)3.4 模型评估方法3.5 模型评价标准4. 代码示例4.1 导入相关设置4.2 读取数据4.3 简单建模4.4 模型调参5. 经验总结1. 学习

2020-09-24 23:32:49 689

原创「数据科学」数据科学研究|竞赛的基本步骤

数据科学研究|竞赛的基本步骤0. 基本步骤1. 问题建模1.1 问题/赛题理解1.1.1 业务理解1.1.2 数据理解1.1.3 评价指标1.2 线下验证1.2.1 时序验证1.2.2 K折交叉验证2. 数据分析2.1 了解数据2.2 数据探索性分析（EDA）3. 特征工程3.1 数据预处理3.2 特征提取3.3 特征选择4. 必备模型5. 模型融合6. 模型优化0. 基本步骤1. 问题建模1.1 问题/赛题理解1.1.1 业务理解1.1.2 数据理解每种数据集之间的关系数据中缺失值情况

2020-09-22 17:40:09 250

原创「Linux」Linux Shell 编程基础入门

Linux Shell 编程基础入门1. 变量1.1 变量定义1.2 使用变量1.3 引号1.4 将命令的结果赋值给变量1.5 位置参数1.6 特殊变量及其含义2. 字符串2.1 字符串截取3. 数组4. 运算符4.1 算术运算符4.2 关系运算符4.3 布尔运算符4.4 逻辑运算符4.5 字符串运算符4.6 文件测试运算符5. echo命令5.1 命令格式5.2 基本用法6. awk命令6.1 语法6.2 选项参数说明6.3 基本用法1. 变量1.1 变量定义Shell 支持以下三种定义变量的方式：

2020-09-22 12:19:11 122

原创「数据科学」天池金融风控-贷款违约预测特征工程

天池金融风控-贷款违约预测特征工程1. 学习目标2. 代码示例2.1 导入包并读取数据2.2 特征预处理2.2.2 缺失值填充2.2.3 时间格式处理2.2.4 对象类型特征转换到数值2.2.5 类别特征处理2.3 异常值处理2.3.1 检测异常的方法一：均方差2.3.2检测异常的方法二：箱型图2.4 数据分桶2.5 特征交互2.6 特征编码2.6.1 labelEncode 直接放入树模型中2.6.2 逻辑回归等模型要单独增加的特征工程2.7 特征选择2.7.1 Filter2.7.2 Wrapper

2020-09-21 21:55:42 737

原创「数据科学」使用 seaborn 进行数据可视化

使用 seaborn 进行数据可视化seaborn 简介布局风格 import seaborn as sns样式控制：axes_style() and set_style()边框控制：despine()绘图元素：plotting_context() 和 set_context()绘图可视化统计关系 relplot散点图线图可视化数据集的分布 distplot直方图可视化分类数据 catplot分类散点图分类分布图分类估计图一些参数seaborn 简介上一篇文章介绍了使用 matplotlib 进行数据可

2020-09-18 14:06:14 624

原创「数据科学」天池金融风控-贷款违约预测数据分析

天池金融风控-贷款违约预测数据分析1. 学习目的2. 了解数据2.1 导入第三方库2.2 读取文件2.2.1 拓展知识2.3 总体了解2.3.1 样本个数和特征维度3. 数据分析与可视化3.1 缺失值与唯一值3.2 数值类型与对象类型3.2.1 数值类型变量分析3.2.2 对象类型变量分析3.3 变量分布可视化3.3.1 单一变量分布可视化3.3.2 根绝y值不同可视化x某个特征的分布3.4 时间数据处理与可视化3.5 透视图3.6 生成数据报告4. 总结1. 学习目的上一篇文章介绍了天池“金融风控-贷

2020-09-17 18:42:09 3388

原创「数据科学」使用 matplotlib 进行数据可视化

使用 matplotlib 进行数据可视化matplotlib 简介figure 画布subplot 分割画布subplots 分割画布绘制图形scatter 散点图bar 柱形图barh 水平柱形图pie 饼状图颜色、标记、线型颜色标记线型示例刻度、标签、图例刻度标签图例示例matplotlib 简介matplotlib 是 Python 最著名的绘图库，它提供了一整套和 matlab 相似的命令 API，十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件，嵌入 GUI 应用程序中。seab

2020-09-17 14:20:33 578

原创「机器学习」天池金融风控-贷款违约预测赛题分析

天池金融风控-贷款违约预测赛题分析1. 赛题背景2. 赛题数据3. 评价指标4. 赛题流程5. 代码示例5.1 数据读取pandas5.2 分类指标评价计算示例6. 经验总结7. 拓展知识——评分卡1. 赛题背景赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。比赛地址：https://tianchi.aliyu

2020-09-15 22:34:27 2537

原创「机器学习」分类算法常见的评估指标

分类算法常见的评估指标1. 混淆矩阵（Confuse Matrix）1. 混淆矩阵（Confuse Matrix）（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative ) 混

2020-09-13 14:36:46 1551 1

秀球Gang的学习小站