学机器学习的机械工程师-CSDN博客

原创 python知识结构-task1

因为以前自己也学过python，这一次学习更多是为了对知识整体性把握脑图后续脑图会持续更新完整链接：https://naotu.baidu.com/file/35b948d79be9a285adea37183e45d900重点知识：python处处是对象print()函数 range()函数 enumerate()函数推导式异常处理相关语句...

2021-01-22 17:35:53 152

模型融合1内容介绍模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升，以下是模型融合的方式。平均：简单平均法加权平均法投票：简单投票法加权投票法综合：排序融合log融合stacking构建多层模型，并利用预测结果再拟合预测blending选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据中预测boosti

2020-09-27 22:03:56 322

原创风控-建模及调参

1 模型对比与性能评估1.1逻辑回归优点：训练速度较快，分类时，计算量仅仅只和特征的数目相关简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响。适合二分类问题，不需要缩放输入特征内存资源占用小，只需要存储各个维度的特征值缺点：逻辑回归需要预先处理缺失值和异常值；不能用Logistic回归去解决非线性问题，因为Logistic决策面是线性的对多重共线性数据较为敏感，且很难处理数据不平衡的问题。准确率并不是很高，因为形式非常简单，很难去拟合数据的真实

2020-09-24 17:48:50 247

原创风控-特征工程

1 学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法2 内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱（选做作业）特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试（选做作业）特征编码one-hot编码label

2020-09-21 20:43:06 341

原创风控-数据分析

数据总体了解：读取数据集并了解数据集大小，原始特征维度；通过info熟悉数据类型；粗略查看数据集中各特征基本统计量；缺失值和唯一值：查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告import pandas as pdimport numpy as npimport matplotlib.pyplot as plt

2020-09-18 17:15:29 1764

原创数据挖掘实战-金融风控-赛题理解

1.赛题信息赛题以预测用户贷款是否违约为任务，自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏2.数据概况3.评价标准二、评测标准提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为AUC评估模型效果（越大越好）。AUC（Area

2020-09-15 22:26:39 426

原创支持向量机实践

Demo实践首先我们利用sklearn直接调用 SVM函数进行实践尝试## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn import svm##Demo演示LogisticRegression分类## 构造数据集x_fearures = np.array([[-1, -2], [-2, -1]

2020-08-25 19:08:03 270

原创决策树算法(待更新)

决策树决策树是一种树型结构的机器学习算法,它每个节点验证数据一个属性,根据该属性进行分割数据,将数据分布到不同的分支上,直到叶子节点,叶子结点上表示该样本的label. 每一条从根节点到叶子节点的路径表示分类[回归]的规则.sklearn中的决策树简单实践import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_iris, load_bostonfrom sklearn impor

2020-08-22 19:14:18 2962

原创机器学习基础-基于逻辑回归的分类预测

目录逻辑回归与线性回归的联系和区别逻辑回归与线性回归的联系和区别线性回归解决的是连续变量问题，那么在分类任务中可以用线性回归吗？答案是可以，但效果不好。如何用线性回归来解决分类问题，其分类的阈值选取影响非常大，且当数据不平衡时，也影响效果。逻辑回归原理简介-sigmoid函数当z≥0时,y≥0.5,分类为1，当z<0时,y<0.5,分类为0，其对应的y值我们可以视为类别1的概率预测值。Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两...

2020-08-20 18:47:51 284

原创机器学习概述

文章目录1.机器学习综述2.机器学习的发展3.机器学习分类4.机器学习模型5.机器学习损失函数6.机器学习优化方法7.机器学习的评价指标8. 机器学习模型选择9.机器学习参数调优1.机器学习综述机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径.2.机器学习的发展见百度百科的发展历程3.机器学习分类

2020-08-11 22:21:36 508

原创 python-文件与文件系统

目录1. 文件与文件系统打开文件文件对象方法简洁的 with 语句2. OS 模块中关于文件/目录常用的函数3. 序列化与反序列化1. 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需，文件路径（相对或者绝

2020-08-08 19:31:48 161

原创 datetime模块

目录datetime 模块1. datetime类2. date类3. time类4. timedelta类datetime 模块datetime是python中处理日期的标准模块，它提供了 4 种对日期和时间进行处理的类：datetime、date、time 和 timedelta。1. datetime类class datetime(date): def __init__(self, year, month, day, hour, minute, second, microsecond

2020-08-07 17:20:47 218

原创 datawhale-对象、魔方方法、模块

目录类与对象1. 对象 = 属性 + 方法2. self 是什么？3. Python 的魔法方法类与对象1. 对象 = 属性 + 方法对象是类的实例。以类为模板创建对象。类包含方法定义，还包含所有实例共享得数据。使用关键字 class 定义 Python 类 + 类名：类实现class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10 le

2020-08-05 20:54:57 272

原创 datawhale 函数与lamada表达式

函数与Lambda表达式1.函数python把函数当成对象，可以从另一个函数中返回出来而去构建高阶函数，比如：参数是函数返回值是函数函数的定义def关键词开头，后接函数名和圆括号()冒号开始且缩进return[表达式] 结束函数def functionname(parameters): "函数_文档字符串" function_suite return [expression]函数调用def printme(str): print(str)printme("我要调用"

2020-08-02 21:03:26 177

原创 datawhale-python字典、集合、序列

目录字典1.可变类型与不可变类型2. 字典的定义3. 创建和访问字典3.1创建3.2 访问4. 字典的内置方法5. 结构图集合1. 集合的创建2. 访问集合中的值3. 集合的内置方法4. 集合的转换5. 不可变集合6.结构图序列1. 针对序列的内置函数字典1.可变类型与不可变类型序列是以连续的整数为索引，字典以"关键字"为索引（任意不可变类型：字符串或数值）字典是 Python 唯一的一个映射类型，字符串、元组、列表属于序列类型。判断x类型的方法：id(X) 函数对 X 进行某种操作，

2020-07-31 22:00:03 214

原创 datawhale-Python学习打卡-列表、元组、字符串

列表见脑图http://naotu.baidu.com/file/9451d2efb861d26350ea866b1cce6668?token=d088867676945302元组http://naotu.baidu.com/file/00ba792fd39219b435d1bc44f84bfe04?token=95ca62785ee3e2c6字符串http://naotu.baidu.com/file/1386723ff37d64428aca2c6f03856bf7?t..

2020-07-28 19:50:34 112

原创 datawhale-python学习打卡3:异常处理

异常处理本节直接引用datawhale的资料异常处理一节，感谢！！！异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型，某种错误引发对应的异常时，异常处理程序将被启动，从而恢复程序的正常运行。1. Python 标准异常总结BaseException：所有异常的基类Exception：常规异常的基类StandardError：所有的内建标准异常的基类ArithmeticError：所有数值计算异常的基类FloatingPointError：浮点计算异常Over

2020-07-25 17:38:33 131

原创 datawhale-Python学习打卡02

3.条件语句3.1if 语句if 条件语句: expr_true_suiteif 语句的expr_true_suite代码块只有当条件表达式结果为真时才执行，否则将继续执行紧跟在该代码块后面的语句。单个 if 语句中的expression条件表达式可以通过布尔操作符and，or和not实现多重条件判断。if 2 > 1 and not 2 > 3: print('hello world')# hello world3.2if - else ...

2020-07-23 17:30:23 122

原创 datawhale-Python学习打卡01

变量、运算符、数据类型、位预算目录变量、运算符、数据类型、位预算1.注释2.运算符2.1算术运算符2.2比较运算符2.3逻辑运算符2.4位运算符2.5三元运算符2.6成员运算符2.7身份运算符2.8优先级3. 变量和赋值3.1变量3.2赋值4. 数据类型与转换4.1数据类型4.2类型转换5. print() 函数6.位运算6.1基本知识6.2利用位运算实现快速计算6.3利用位运算实现整数集合练习题：1.注释.

2020-07-22 18:39:17 172

原创数据分析-numpy入门笔记

本文参考黄博士学习资料做的笔记，代码执行环境是notebook

2020-07-08 02:10:46 311 1

原创 CS224N-HW1

这里是引用部分参考网上代码，后续更新homework2作业CS224N Assignment 1: Exploring Word Vectors (25 Points)Welcome to CS224n!Before you start, make sure you read the README.txt in the same directory as this notebook.All Import Statements Defined HereNote: Do not add to t.

2020-07-06 19:53:43 2293

原创 NLP-task4 EMLO &BERT Models

本文主要介绍ELMO, GPT, BERT三个模型。本文主要根据论文来写

2020-07-03 18:56:21 236

原创 NLP-Task3 Subword model

word2vec 和 glove 基本上都是基于word单词作为基本单位的，这种方式虽然能够很好的对词库中每一个词进行向量表示，然而，这种方式容易出现单词不存在于词汇库中的情况，也就是 OOV(out-of-vocabulary),而且对于单词的一些词法上的修饰(morphology)处理的也不是很好。一个自然的想法就是能够利用比word更基本的组成来建立模型，以更好的解决这些问题。本节思考采用 n-gram 思想训练 word vector 模型，也就是 FastText。Character-L..

2020-06-30 20:11:14 265

abc360605383的博客