- 博客(8)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
原创 kaggle竞赛房价预测--排名前4%
目录1. 数据读取2. 数据处理3. 建模基本模型1)LASSO回归:2)Elastic Net Regression(弹性网回归):3)Kernel Ridge Regression(核岭回归) :4)Gradient Boosting Regression (梯度增强回归):5)XGBoost :6)LightGBM :基本模型得分叠加模型最简单的叠加方法:平均基本模型不那么简单的叠加:添加元模型最后训练和预测Stacked Regressions : Top 4% on LeaderBoardP
2020-05-30 17:13:44 5996 2
原创 kaggle房地产价格预测
Kaggle官方房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA。
2020-05-30 14:11:27 989 1
原创 python sklearn实现中文短信垃圾分类
数据读取import pandas as pdimport jieba data = pd.read_csv(r"E:\数据\实验data\messages.csv",encoding='gbk', header=0, ,names=[“ID”,'label','text'])#print(data.head())短信分词data['cut_message'] = data["text"].apply(lambda x:' '.join(jieba.cut(x)))#使用空格连接分词.
2020-05-28 15:41:02 1621
原创 python pandas 解析(读取、写入) CSV 文件
1. 使用 pandas 读取 CSV 文件原始数据包含了公司员工的数据:NameHire DateSalarySick Days remainingGraham Chapman03/15/1450000.0010John Cleese06/01/1565000.008Eric Idle05/12/1445000.0010Terry Jones11/01/1370000.003Terry Gilliam08/12/1448000
2020-05-28 15:40:03 79066 8
原创 Python3 ID3决策树判断申请贷款是否成功
目录1. 定义生成树2. 递归产生决策树3. 调用生成树4. 绘制决策树5. 调用函数1. 定义生成树# -*- coding: utf-8 -*-#生成树的函数from numpy import * import numpy as npimport pandas as pdfrom math import log import operator # 计算数据集的信息熵(Information Gain)增益函数(机器学习实战中信息熵叫香农熵)def calcInfoEnt(d
2020-05-19 23:05:27 1247 1
原创 Apriori关联算法的python3实现(使用早餐数据)
定义函数def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) #store all the item unrepeatly C1.sort() #return map(frozenset, C1)#frozen
2020-05-18 22:06:12 777
原创 python pandas数据格式转换、排序、统计、数据透视表
目录1 数据格式转换2 数据的排序2.1 单个表格列数据的排序需要用到函数:2.2 多排序问题:3 基本统计数据分析3.1 描述性统计3.2 列数据统计(最值/方差等)4数据透视操作和函数1 数据格式转换查看与转换表格某一列的数据格式:(1)查看数据类型:某一列的数据格式:df[“列属性名称”].dtype(2)数据类型转换:某一列的数据类型转换需要用到数据转换函数:df[列属性名称]=df[列属性名称].astype(“新的数据类型”)代码举例如下:import numpy as npim
2020-05-12 22:51:33 2190
原创 pandas 报错'DataFrame' object has no attribute 'as_matrix'解决办法
data = data.as_matrix(columns = None) 运行时报错==‘DataFrame’ object has no attribute ‘as_matrix’==先看pandas版本pd.__version__‘1.0.3’去pandas官网看该版本的方法说明https://pandas.pydata.org/pandas-docs/stable/refer...
2020-05-02 21:35:15 15613
Python数据殿堂:数据分析与数据可视化.zip
2020-04-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人