数据挖掘实践
沙滩捡贝壳的小男孩
世界很大,我也美好~
展开
-
亲和性分析
亲和性分析示例亲和性分析根据样本个体性之间的相似度,确定关系的亲疏,应用场景如下:向网站用户提供多样化的服务和定向投放广告向用户推荐电影和商品的同时,销售小玩具根据基因寻找有亲缘关系的人商品推荐 商品推荐思路:如梦经常一起购买的两件商品,以后也很可能会同时购买。即: 如果一个人购买了商品X,那么他也很有可能购买商品Y。实例分析本次使用的数据集...原创 2018-04-20 10:49:06 · 1871 阅读 · 5 评论 -
数据挖掘简介&协同过滤
1.什么是数据挖掘 数据挖掘关注数据中的模式发现,人们善于构建模型并进行预测,数据挖掘能够扩展这种能力,让我们能处理大量信息。2.什么是协同过滤 它是推荐系统中一种经典的算法,该方法通过基于其他用户进行推荐...原创 2019-04-14 22:43:11 · 619 阅读 · 0 评论 -
数据分析基础
1.为什么需要数据分析大数据时代,越来越多数据产生,通过分析数据规律,可以构建用户画像等,是时代的“淘金”。如果说互联网上半场是粗狂运营,因为有流量红利不需要考虑细节。那么在下半场,精细化运营将是长久的主题。有数据,有数据分析能力才能让用户得到更好的体验。2.数据分析 = 数据采集+数据挖掘+数据可视化学习数据分析最关键的部分是数据挖掘,数据挖掘就是从数据中淘金,数据挖掘的基本流程:商...原创 2019-06-23 20:58:41 · 291 阅读 · 0 评论 -
数据挖掘集训营-第一次任务(数据分析)
0.数据集说明:金融数据,我们要做的是预测贷款用户是否会逾期。表格中的‘status’是结果标签:0表示未逾期,1表示逾期。要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018任务1:对数据进行探索和分析。时间:2天1.数据预处理# 导入相关包import warningswarnings.filterwarnings("ignore")impor...原创 2019-08-06 21:46:44 · 2303 阅读 · 0 评论 -
数据分析集训营-第二次任务(特征工程)
0.任务要求特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理使用IV值特征选择def calcWOE(dataset, col, target): # 对特征进行统计分组 subdata = df(dataset.groupby(col)[col].count()) # 每个分组中响应客户的数量 suby = df(dat...原创 2019-08-08 21:55:06 · 295 阅读 · 0 评论 -
数据分析集训营-第三次任务(模型构建)
算法介绍随机森林GBDTXGBoostLightGBM导入包import pandas as pdimport warningsfrom sklearn.preprocessing import scalefrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import L...原创 2019-08-10 21:52:25 · 2370 阅读 · 0 评论 -
数据分析集训营-第四次任务(模型评估)
import pandas as pdimport warningsfrom sklearn.preprocessing import scalefrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionfrom sklearn.tree im...原创 2019-08-14 21:56:19 · 185 阅读 · 0 评论 -
数据分析集训营-第五次任务(模型调优)
#!/usr/bin/env python# -*- coding:utf-8 -*- # Author: Jia ShiLin'''调参-参数搜索'''from keras.models import Sequentialfrom keras.layers import Denseimport numpy as np from sklearn.model_selection...原创 2019-08-18 17:20:52 · 292 阅读 · 0 评论 -
数据分析集训营-第六次任务(模型融合)
模型融合==集成学习模型融合又叫做集成学习,集成学习通过组合多个个体学习器来获取比单个个体学习器显著优越的泛化性能,通常选取个体学习器的准则是:个体学习器要有一定的准确性,预测能力不能太差个体学习器之间要有多样性,即学习器之间要有差异。集成学习方式根据个体学习的生成方式,目前的基础学习方法大概分为以下两类:Boosting算法:个体学习器之间存在强依赖关系,必须串行生成Bagg...原创 2019-08-18 18:30:34 · 359 阅读 · 0 评论