![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习之旅
文章平均质量分 92
步步星愿
狭路相逢勇者胜
展开
-
类别特征的各种处理总结
持续更新。。。文章目录one-hot(独热)编码为什么要独热编码?为什么特征向量要映射到欧式空间?独热编码优缺点什么情况下(不)用独热编码?什么情况下(不)需要归一化?one-hot编码为什么可以解决类别型数据的离散值问题Tree Model不太需要one-hot编码独热编码的编程实现LabelEncoder编码LabelEncoder编码的编程实现计数编码(频率编码)one-hot(独热)编...原创 2019-10-23 16:18:06 · 3534 阅读 · 3 评论 -
类别变量赋予唯一的数字ID
为每个类别变量赋予唯一的数字IDsklearn.preprocessing.LabelEncoder的使用from sklearn import preprocessingfrom sklearn.ensemble import GradientBoostingRegressor# from sklearn import cross_validation, metricsfrom skl...原创 2019-10-16 17:58:20 · 297 阅读 · 0 评论 -
Python Set intersection() 方法在数据分析的应用
1、首先进行方法介绍1.1、描述intersection() 方法用于返回两个或更多集合中都包含的元素,即交集。1.2、语法intersection() 方法语法:set.intersection(set1, set2 ... etc)1.3、参数set1 – 必需,要查找相同元素的集合set2 – 可选,其他要查找相同元素的集合,可以多个,多个使用逗号 , 隔开1.4、返回值...原创 2019-07-23 19:32:17 · 737 阅读 · 0 评论 -
特征工程-------绘制特征图
方式一:利用xgboost进行训练模型,可以得出各个特征的重要性评分。方式二:绘制皮卡尔相关系数图,找出各个特征之间的相关性原创 2019-07-20 09:42:25 · 966 阅读 · 0 评论 -
数据处理过程中对于一列数据内容进行统一的分割为多列的操作
数据处理过程中对于一列数据内容进行统一的分割为多列的操作由于 本人翻了好久,才想出来的办法,很多博客上只介绍了方法一,其实方法二往往更加强大,适用的场景更大。方法一:利用python的split函数进行分割:使用split利用数据中的规则标识符进行分割,如图所示:方法二:切片法:当我们找不到统一规则的时候就要进行统一的切片操作,当然,我自认为这是最方便的,在特征工程的构建中也是经常用到...原创 2019-07-17 20:39:04 · 1155 阅读 · 0 评论 -
Pandas删除/选取含有特定数值的行或列
Pandas是数据科学中的利器,你可能想到的数据处理骚操作,貌似用Pandas都能够实现,下面这部分在数据处理中往往用于删除异常值,或许还有其他用处,希望读者能够发现。删除/选取某列含有特殊数值的行删除/选取某行含有特殊数值的列...原创 2019-07-21 19:26:32 · 11676 阅读 · 0 评论 -
时间序列的基本知识
1、时间图对于时间序列数据而言,我们从最简单的时间图开始。时间图是用将观测值与观测时间点作图,散点之间用直线连接。例如图2.1表示在澳大利亚两个最大的城市之间,Ansett航空公司的每周客流量。例如以下图形:该时间图直观地展现出数据具有的一些特征:由于1989年当地的工业纠纷,当年的客流量为0.在1992年中,由于一部分经济舱被商务舱取代,导致客流量大幅减少。1991年下半年客流量...原创 2019-07-27 17:58:48 · 4069 阅读 · 0 评论 -
如何保存已经训练好的机器学习模型
机器学习中如何保存已经训练好的模型当我们训练好一个model后,下次如果还想用这个model,我们就需要把这个model保存下来,下次直接导入就好了,不然每次都跑一遍。sklearn官网提供了两种保存model的方法:1.使用python自带的pickle from sklearn.ensemble import RandomForestClassifier from skl...原创 2019-08-07 15:22:17 · 14095 阅读 · 0 评论 -
【lightgbm/xgboost/nn代码整理二】xgboost做二分类,多分类以及回归任务
转载知乎专栏ML与DL成长之路,作者QLMX链接https://zhuanlan.zhihu.com/p/766155071.简介该部分是代码整理的第二部分,为了方便一些初学者调试代码,作者已将该部分代码打包成一个工程文件,包含简单的数据处理、xgboost配置、五折交叉训练和模型特征重要性打印四个部分。数据处理部分参考:代码整理一,这里只介绍不同的部分。本文主要是介绍一些重点的参数部分...转载 2019-08-25 11:36:00 · 3009 阅读 · 0 评论 -
【lightgbm/xgboost/nn代码整理一】lightgbm做二分类,多分类以及回归任务
1. 简介内心一直想把自己前一段时间写的代码整理一下,梳理一下知识点,方便以后查看,同时也方便和大家交流。希望我的分享能帮助到一些小白用户快速前进,也希望大家看到不足之处慷慨的指出,相互学习,快速成长。我将从三个部分介绍数据挖掘类比赛中常用的一些方法,分别是lightgbm、xgboost和keras实现的mlp模型,分别介绍他们实现的二分类任务、多分类任务和回归任务,并给出完整的开源pytho...转载 2019-08-25 11:46:49 · 9707 阅读 · 0 评论 -
Pytorch学习教程(一)----pytorch是什么?
一、PyTorch 是什么他是一个基于Python的科学计算包,目标用户有两类为了使用GPU来替代numpy一个深度学习援救平台:提供最大的灵活性和速度开始张量(Tensors)张量类似于numpy的ndarrays,不同之处在于张量可以使用GPU来加快计算。from __future__ import print_functionimport torch构建一个未初始化的......翻译 2019-06-09 20:29:29 · 20624 阅读 · 1 评论 -
Pytorch学习教程(三)---------神经网络
%matplotlib inline神经网络可以使用torch.nn package构造进行构造神经网络。刚刚我们简单介绍了autograd,nn依赖于autograd来定义模型并区分它们。一个nn.Module包括你定义的网络层和一个forward(input)方法,这个方法返回output。我们看下这个数字图片分类的网络的例子:它是一个简单的前馈网络。它接受输入,并且每层的输入都是...原创 2019-06-14 09:01:58 · 3557 阅读 · 0 评论 -
Python3 《机器学习实战》决策树算法
3.1决策树的构造3.1.1信息增益划分数据的原则是:将无序的数据变得有序。香农熵:定义为信息的期盼值,熵值越高,信息越混乱。计算所有类别所有可能值包含的信息期望值:H = sum(-p(xi)*log2p(xi)) (1<=i<=n) n为分类的数目。利用python3计算给定数据集香农熵from math import logimport operatord...原创 2018-10-24 20:19:13 · 437 阅读 · 0 评论 -
关于欧几里得距离的一些解释
最近研究多维空间下的距离,很少头晕(呜呜呜呜~~~~~~~~)正题:在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。使用这个距离,欧氏空间成为度量空间。相关联的范数称为欧几里得范数。较早的文献称之为毕达哥拉斯度量。定义在欧几里得空间中,点x =(x1,…,xn)和 y =(y1,…,yn)之间的欧氏距离为向量x的自然长度,即该点到原点的距离为它是一...原创 2018-11-10 09:16:04 · 7861 阅读 · 0 评论 -
关于哈曼顿距离的一些解释
哈曼顿距离的解释和定义图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离d(i,j)=|X1-X2|+|Y1-Y2|数学性质非负性:d(i,j)≥0 距离是一个非负的数值同一性:d(i,i)= 0 对象到自身的距离为0对称性:d(i,j)= d(j,i)距离是一个对称函数三角不等式:d...原创 2018-11-10 09:28:35 · 2622 阅读 · 0 评论 -
机器学习聚类算法中的闵可夫斯基距离
最近闲着没事了解一下聚类算法,闵可夫斯基距离真有趣,搞得我有点一头雾水,废话不多,上定义:本文从公式上表述了欧几里得距离、曼哈顿距离、切比雪夫距离记忆闵可夫斯基距离之间的关系。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1)同一性: d(x,x) = 0 // 到自己的距离为02) 非负性:d(x,y) >= 0 // 距离非负3) 对称性:d(x,y) = ...原创 2018-11-08 11:16:50 · 5541 阅读 · 0 评论 -
NumPy数组基础与计算(五):Numpy的通用函数
Numpy的运算比较简单,,,1、数组的运算运算符对应的通用函数及其描述+np.add #加法运算–np.subtract #减法运算–np.megative # 负数运算*np.multlply # 乘法运算/np.divide #除法运算//np.floor_divide #除法取整**np.power #指数运算...原创 2018-11-14 17:38:12 · 1131 阅读 · 1 评论 -
特征工程建立篇(一)------特征选择
特征工程建立篇(一)------特征选择 在许多大数据挖掘竞赛中(国内的阿里天池和国外的kaggle平台),最复杂的过程莫过于特征工程建立阶段,大概占据了整个竞赛过程的70%的时间和精力,最终建立的模型的好坏大多也取决于特征工程建立的好坏。 特征工程部分往往也是数据分析的核心,特征工程的建立往往比模型的建立复杂的多,特征工程不像模型建立的过程有着固定的套路,特征...原创 2019-03-25 18:23:55 · 1595 阅读 · 0 评论 -
特征选择与评分可视化显示
特征选择与评分可视化显示在上一篇推文中,我们讲述了判定各个特征与标签的相关性,对特征进行选择,本文,我们将会利用sklearn中的SelectKBest和SelectPercentile默认的"f_classif"(通过方差分析)给特征进行打分 ,并且进行排序和可视化,希望本篇文章能够帮助你进一步挖掘数据当中特征之间的统计关系。我们进行选取鸢尾花数据集为例进行讲解1. 导入数据科学库fro...原创 2019-04-02 17:20:14 · 2450 阅读 · 0 评论 -
中国高校计算机大数据挑战赛预选赛baseline
中国高校计算机大数据挑战赛预选赛baseline预选赛:文本情感分类模型本预选赛要求选手建立文本情感分类模型,选手用训练好的模型对测试集中的文本情感进行预测,判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测,达到或超过规定的分数线即通过预选赛。这次比赛可以利用TF-IDE进行建模。以下是我用一个小时为本赛题建立的的baseli...原创 2019-05-29 10:18:48 · 507 阅读 · 0 评论 -
PyTorch学习教程(二)-------Autograd:自动微分
%matplotlib inlineAutograd:自动微分autograd package是PyTorch神经网络的核心。我们先简单看一下,然后开始训练第一个神经网络。autograd package为张量的所有operations(操作或运算)提供了自动微分。它是一个define-by-run框架,意思是说你的反向传播(backpropagation)是由 如何运行代码 定义的,并且...原创 2019-06-13 18:31:18 · 951 阅读 · 0 评论 -
Python3《机器学习实战》笔记:K-近邻算法
2.1 实施KNN算法python3实现KNN算法,本书采用的是python2,转化为python3import numpy as np#运算符模块import operatordef createDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', '...原创 2018-10-23 17:46:06 · 352 阅读 · 0 评论