- 博客(8)
- 收藏
- 关注
原创 kaggle房价预测模型总结
房价预测任务目标:根据房屋属性预测每个房子的最终价格。任务流程:(一):分析数据指标不同指标对结果的影响连续值与离散值的情况(二):观察数据正太性数据变换操作(三):数据预处理缺失值填充标签转换(四):建模预测房价(一):分析数据指标先总体查看数据的特征值与目标值:特征值:MSSubClass:建筑类mszoning:一般的分区分类LotFron...
2020-05-04 09:50:50 4777 4
原创 JD用户购买意向预测-数据发掘
数据集:JData_User.csv 用户数据集 105,321个用户JData_Comment.csv 商品评论 558,552条记录JData_Product.csv 预测商品集合 24,187条记录JData_Action_201602.csv 2月份行为交互记录 11,485,424条记录JData_Action_201603.csv 3月份行为交互记录 25,916,378条记...
2020-05-02 22:02:16 1257 1
原创 Python-泰坦尼克号生存率预测
链接: kaggle算法泰坦尼克号生存率预测.1. 准备工具# 导入包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warnings#准备前置工作sns.set(style='darkgrid') #使用画图风格warnings...
2020-04-27 21:50:39 4661 2
原创 学习笔记:机器学习day3
1.回归算法-线性回归分析回归:目标值连续线性回归需要做标准化处理。线性关系模型一个通过属性的线性组合来进行预测的函数:f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+bf(x)=w1x1+w2x2+...+wdxd+bw为权重(斜率),b为偏置项(截距)损失函数(误差大小)yi为第i个训练样本的真实值...
2020-04-21 23:06:39 311
原创 学习笔记:机器学习day2
一、sklearn数据集与估计器1.sklearn数据集1.数据集划分一般划分两部分训练集:用于训练,构建模型 (70%,75%,80%)测试集:在模型检验时使用,用于评估模型是否有效 (30%,25%,20%)一般划分75%,25%比较好APIsklearn.model_selection.train_test_split- sklearn.datasets加载获取流行...
2020-04-21 12:12:05 776
原创 学习笔记:机器学习day1
机器学习数据集结构,机器学习特征工程:1.数据的特征抽取 1.文本特征抽取 2.字典特征抽取2.数据特征预处理 1.归一化 2.标准化 3.缺失值处理3.数据的降维
2020-04-20 09:18:10 349
原创 Python 正则表达式
1.正则表达式元字符和语法字符说明.匹配任意除换行符“\n”外的字符\转义符[ ]字符集。逐个:[123], 范围:[1-3]\d匹配数字 [1-9]\D匹配非数字 [^\d]\s空白字符\S非空白字符\w单词字符:[A-Za-z0-9_]\W非单词字符*匹配前一个字符出现0次或者无限次+匹配...
2020-04-16 21:52:59 146
原创 利用python进行数据分析—MovieLens 1M数据集
数据来源:http://www.grouplens.org/node/73一、 导入python库import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom matplotlib.font_manager import FontProperties二、数据整理1.通过pandas读取数据...
2020-04-16 21:24:50 1138 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人