数据挖掘
弎见
这个作者很懒,什么都没留下…
展开
-
数据挖掘之用户画像
目录:一. 构造词向量特征1.1 原始数据编码转换1.2 生成对应的数据表1.3 分词与词性过滤二. 构造输入特征2.1 使用Gensim库建立word2vec词向量模型2.2 加载训练好的word2vec模型,求用户搜索结果的平均向量2.3 测试集三. 建立预测模型3.1 基础预测模型(逻辑回归)3.2 随机森林3.3 堆叠模型四. 模型测试一. 构造词向量特征1.1 原始数据编码转换import pandas as pdimport csv# 训练数据data_path = r'data\原创 2020-07-05 21:37:26 · 2201 阅读 · 1 评论 -
数据挖掘之房价预测任务
(一):分析数据指标不同指标对结果的影响连续值与离散值的情况(二):观察数据正太性是否满足正太分布数据变换操作(三):数据预处理缺失值填充标签转换(四):集成方法建模对比单模型回归效果平均与堆叠效果对比原创 2020-07-03 22:46:35 · 2470 阅读 · 3 评论 -
数据挖掘之京东购买意向预测
使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。一. 数据检查; 二. 构建特征表单; 三. 数据清洗; 四. 数据探索; 五. 特征工程; 六. 构造训练集/测试集; 七. Xgboost建模原创 2020-06-25 11:26:25 · 1860 阅读 · 2 评论 -
电费敏感数据挖掘三: 构建低敏用户模型
电费敏感数据挖掘一: 数据处理与特征工程电费敏感数据挖掘二: 文本特征构造目录:六. 构建XGBoost模型6.1 读取特征6.2 基于选择的词来创建tf-idf,构建模型输入数据6.3 XGBoost七. 保存最终预测六. 构建XGBoost模型6.1 读取特征import pandas as pdimport numpy as npimport picklefrom scipy...原创 2020-05-07 00:55:48 · 856 阅读 · 2 评论 -
电费敏感数据挖掘二: 文本特征构造
电费敏感数据挖掘一: 数据处理与特征工程目录:四. 处理文本特征4.1 结巴分词4.2 处理手机号,户号等后面连接的号码4.3 加入文本特征五. 文本特征筛选5.1 构建数据集5.2 稀疏矩阵5.3 构造tf-idf特征5.4 基于特征选择来降维保存文本特征四. 处理文本特征4.1 结巴分词import jiebaprint('开始处理表1中的文本特征...')mywords = [...原创 2020-05-07 00:40:24 · 686 阅读 · 0 评论 -
电费敏感数据挖掘一: 数据处理与特征工程
电费敏感用户数据挖掘1: 一. 数据筛选; 二. 离散值处理; 三. 构建统计特征原创 2020-05-07 00:08:45 · 1124 阅读 · 3 评论 -
数据挖掘案例: 泰坦尼克号
特征理解分析: 单特征分析,逐个变量分析其对结果的影响; 多变量统计分析,综合考虑多种情况影响; 统计绘图得出结论数据清洗与预处理: 对缺失值进行填充; 特征标准化/归一化; 筛选有价值的特征; 分析特征之间的相关性建立模型:特征数据与标签准备; 数据集切分; 多种建模算法对比; 集成策略等方案改进原创 2020-05-03 00:51:08 · 4230 阅读 · 1 评论 -
XGBoost实战: 保险赔偿预测
训练一个基本的xgboost模型,然后进行参数调节通过交叉验证来观察结果的变换,使用平均绝对误差来衡量原创 2020-05-02 11:08:57 · 1632 阅读 · 0 评论