机器学习
huangqihao723
这个作者很懒,什么都没留下…
展开
-
机器学习中常见问题-特征选择
特征选择方法的三大类型 [1]:1.filter method :利用一些统计指标进行特征选择,和模型没有关系2.wrapper method:结合模型来做,每次加入或者减少特征看对模型的准确度是否有提升,如果有提升,那么就增加或者减少,所以需要不断构建模型来判断是否要加入特征3.embedded method:结合模型来做,和模型训练一起做,即模型训练完,特征就出来了;所以,wrapper method 要不断的构建模型,花费的资源是比较多的!filter的部分方法...原创 2020-06-12 17:47:38 · 1104 阅读 · 0 评论 -
机器学习常见问题 - 类别变量处理
类别变量类型:Nominal: 红,黄,蓝 Ordinal,高,中,低连续变量:1.1,2.1,1.3,1.4类别变量问题的一些挑战类别数量很多,但是每个类别的样本不多,例如“城市” 一些机器学习模型,例如回归或者SVM 需要输入是数值型的,类别需要先转化成数值才能应用这些算法 对于机器来说,不一定能轻松理解一些人理解的信息,例如 北京,上海,杭州三个城市,人可以知道上海到杭州更近点,但是对于模型来说,仅仅代表三个不同的level,所以需要增加一些额外的信息。几种处理方法:..原创 2020-06-12 15:13:31 · 3285 阅读 · 0 评论 -
Isolation Forest 孤立森林的理解
1.基本原理篇直觉上:我们递归构建随机划分树,所有实例均被划分即构建完毕;异常值,比较早的被划分,在树中路径长度比较短。论文中,提到了一个测试,如下图 从高斯分布中随机生成135个点,上图中正常点xi需要12次随机的划分,而异常的点x0只需要4次划分。 树的数量与xi,x0两个点平均划分长度的关系,可以看到随着树的增加,正常点和异常点的划分路径长...原创 2020-04-14 21:59:16 · 917 阅读 · 0 评论 -
Python中异常值,单一值,重复值,缺失值的处理
重复值,输入为DataFrame,检测是否有重复的行以及删除重复的行class Duplicated(): def __init__(self,df,subset=None,keep='first',inplace=False): self.subset=subset if isinstance(self.subset, list) and len...原创 2020-04-01 12:20:54 · 1134 阅读 · 0 评论 -
Python生成pmml文件
什么是pmml predictive model markup language 预测模型标记语言 1997年7月提出 xml格式 通用性(跨平台)、规范性(规范化模型描述语言)、异构性(xml本身的异构性)、独立性(独立于数据挖掘工具和)、易用性(编辑xml文档) fit / transform / fit_transform的区别 fit:从数据中生成参数 tra...原创 2020-03-26 23:38:08 · 3859 阅读 · 1 评论 -
机器学习中上(过)、下(欠)采样的方法
过采样:smote假设有两个class:class1 和 class2 ,其中class1样本数少 从class1中随机选择一个点C,找到该点的K个邻居 从K个邻居中随机选择一个点C_ne 连接C与C1,在C与C_ne的连线上生成新的点C_new 重复1-4 M步骤,可构造M个点from sklearn.datasets import make_classificationfr...原创 2019-04-04 13:55:13 · 2278 阅读 · 0 评论 -
利用fasttext对短信内容进行分类
一.样本说明:共1405506条记录,其中逾期的为486996条记录,非逾期的为486996条 包含两个字段 tag (标识是否逾期) ,message(短信内容) 实际训练样本(non_overdue: 641065, overdue: 340783) 实际测试样本(non_overdue: 274660, overdue: 146132) 目标:根据短信内容,预测类别是否逾期二...原创 2019-04-10 15:50:13 · 417 阅读 · 0 评论 -
异常值识别方法小结
总览:编号 方法 1 经验判断 2 3σ 3 dbscan 4 lof 5 isolation tree 6 one class svm 一. 经验判断X={x1,x2,...,xn}IQR=0.75 分位数 - 0.25 分位数outlier_min=0.25分位数-1.5IQRou...原创 2019-04-01 18:21:56 · 3776 阅读 · 0 评论 -
集成学习概念与python代码实现
bootstrap来自短语to pull oneself up by one,不靠外界力量,也称为自助 重采样技术,用于统计推断,估计样本分布 有放回采样,抽样的数据和原始数目一样 1/3袋外比例 (1-1/n)^n =0.368jacknife瑞士小刀 不涉及放回问题 若X=(x1,x2,...,xn), 则jacknife样本为X_i=(x1,...x_i-1,x_i+1...原创 2019-04-03 13:47:23 · 404 阅读 · 0 评论 -
统计-均匀分布生成其他分布的两种方法
一.求逆法: 二.舍弃法: 三.python实现,通过从均匀分布中抽样,模拟其他分布的样本# 求逆法,需要原函数的逆函数比较容易求得import numpy as npimport matplotlib.pyplot as pltuniform_data=np.linspace(0,1000,10000)# 针对连续型密度函数 3*x^2 ...原创 2018-09-25 14:46:39 · 8132 阅读 · 1 评论 -
梯度下降(BGD/SGD/MBGD)的实现
梯度下降法,也称最速下降法,用当前位置负梯度作为搜索方向,靠近目标值的时候收敛速度会下降;如果为凸函数,则目标值为全局最优值,否则,会陷入局部最优的情况 import numpy as npfrom random import sample#y_hat=theta1*x1+theta2*x2+theta3*x3x = np.array([[...原创 2018-01-26 13:40:50 · 1492 阅读 · 1 评论