用户新增预测挑战赛:关于baseline的解读和看法

前言

赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户。

 1、导入需要用到的相关库

import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier

其中pandas、numpy均为在数据处理中频繁使用的处理工具,提供了大量能使我们快速便捷地处理数据的函数和方法,它们是使Python成为强大而高效的数据分析环境的重要因素之一。

Sklearn原称是Scikit learn,是机器学习领域中最知名的python模块之一,是基于Python语言的机器学习的工具。他主要建立在NumPy,SciPy,matplotlib之上,提供简单高效,用于数据挖掘,数据分析等的工具。DecisionTreeClassifier即决策树分类器是Sklearn模块中诸多处理分类问题的算法之一,其中每个内部节结点表示在一个属性上的测试,每一个分支代表一个测试输出,每个叶结点代表一种类别。

2、读取训练集和测试集

train_data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
test_data = pd.read_csv('用户新增预测挑战赛公开数据/test.csv')

read_csv()函数在pandas中用来读取文件(逗号

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值