数据挖掘
文章平均质量分 88
truffle528
这个作者很懒,什么都没留下…
展开
-
【数据挖掘算法】KNN学习
KNN算法 KNN(k-nearest-neighbour)是数据挖掘领域的基本算法之一,原理比较简单,在各类别均衡、样本容量比较大的情况下比较实用。 算法原理 算法以样本间的距离作为相似性测度。在同一测量空间中以测试样本为中心,检测一定范围内的k个样本类别,用“投票法”得出测试样本的类别。#设k为离测试样本最近的样本数,d为数据集 for 数据集中的每条数据 do 计算其余所有点原创 2017-07-31 00:25:05 · 381 阅读 · 0 评论 -
[数据挖掘]利用Titanic学习特征工程
概述 本文将以Titanic的数据集作为例子,学习如何进行数据清洗,从原始数据中挖掘出对目标有利的特征以便构建出优秀的模型。数据集来源于kaggle中的题目:预测Titanic乘客的存亡情况。 数据探索有7个步骤,分别是: 1.确定变量 2.单变量分析 3.二元变量分析 4.缺失值分析 5.异常值分析 6.特征转换 7.特征创建 其中4原创 2017-08-10 16:30:23 · 1515 阅读 · 0 评论 -
客户贷款逾期预测[1]-逻辑回归模型
任务 预测贷款客户是否会逾期,status为响应变量,有0和1两种值,0表示未逾期,1表示逾期。 代码: # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018 @author: keepi """ import pandas as pd from sklearn.linear_model import...原创 2018-11-15 19:54:30 · 2536 阅读 · 1 评论