机器学习
文章平均质量分 65
Change_JW
这个作者很懒,什么都没留下…
展开
-
特征工程数据预处理--基于SK-learn的One-Hot编码
一,One-Hot编码概念: 在数据处理和特征工程中,经常会遇到类型数据,如性别分为[男,女](暂不考虑其他。。。。),国家分为[中国,日本,美国]等,我们通常将其转为数值带入模型,如[0,1], [1,0,-1]等,但模型往往默认为连续型数值进行处理,这样其实是违背我们最初设计的,也会影响模型效果。独热编码便是解决这个问题,其方法是使用N位bit来对N个状态进行编码,每个状态都由他独立的bit位...原创 2018-06-02 21:24:06 · 1966 阅读 · 0 评论 -
Kaggle 房价预测
该案例的目的是根据已有房屋售价的信息,预测其他房屋的可售价格;重点在于特征工程部分,对于特征的处理以及属性的构造尤为重要!kaggle 原地址链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques数据处理部分:数据概览 pandas打印N个样本,直观感受样本的数据查看样本量、特征类型、缺失值查看各属性的分布情况...原创 2018-06-26 22:48:29 · 356 阅读 · 0 评论 -
【转】特征选择工程方法
机器学习中,有哪些特征选择的工程方法?1 什么是特征工程有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特...转载 2018-06-07 14:38:46 · 233 阅读 · 0 评论 -
KNN 分类
"""Please note, this code is only for python 3+. If you are using python 2+, please modify the code accordingly."""#coding: UTF-8#Definiation of COLs:#1. sepal length in cm#2. sepal width in cm...原创 2018-06-06 23:25:48 · 249 阅读 · 0 评论 -
分析4个特征统计信息和状况
首先我们知道iris数据集包含三种花种类,每种花对应50个样本数据,每个数据包含4个特征数据,#Definiation of COLs:#1. sepal length in cm (花萼长)#2. sepal width in cm(花萼宽)#3. petal length in cm (花瓣长)#4. petal width in cm(花瓣宽)1)对比下单独每个特征下的最大最小值,观...原创 2018-06-06 18:17:33 · 821 阅读 · 0 评论 -
SVM 二分类与模型评估参数
#正常输出中文import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding = 'utf-8')#Accuracy、AUC、Recall、Precision、F1-Scorefrom sklearn.datasets import make_classificationfrom sklearn ...原创 2018-06-12 23:45:01 · 9709 阅读 · 1 评论 -
递归特征消除
递归特征消除Recursive feature elimination (RFE)递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据系数来选),把选出来的特征选择出来,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此,这是一种寻找最优特征子集的贪心算法。 RFE的稳定性很大程度上取决于在迭代...原创 2018-06-05 17:54:38 · 25830 阅读 · 0 评论 -
分类-iris dataset
构造特征组合import pandas as pd import numpy as np import matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import datasets def main(): ''' iris = pd.read_csv('F:\\AI_code\\Ir...原创 2018-06-05 15:53:24 · 1148 阅读 · 0 评论 -
MNIST数字识别-CODE
前向传播 & 参数定义# -*- coding:utf-8 -*-#定义前向传播的过程以及神经网络中的参数import tensorflow as tf#定义神经网络结构相关的参数INPUT_NODE = 784 # 28*28OUTPUT_NODE = 10 # 0-9LAYER1_NODE = 500 #隐藏层节点个数#获取w权值 weightdef get...原创 2018-12-04 16:40:40 · 208 阅读 · 1 评论