数据分析
JamesLi6
编程虽然很繁琐、乏味。但我会一直坚持下去,让大学的生活更充实一些。
展开
-
python 数据聚合与分组
python 数据聚合与分组前面讲完了字符处理,但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容。通过数据的聚合与分组,我们能更容易的发现隐藏在数据中的规律。数据分组数据的分组核心思想是:拆分-组织-合并首先,我们了解下groupby这个函数import numpy as npimport pandas as pddata=pd.DataFrame({'level':['a...转载 2018-05-17 09:23:11 · 4359 阅读 · 0 评论 -
python数据分析之数据聚合和分组运算
group by技术pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作是在对象的特定轴上执行的,然后将一个函数应用到各个分组并产生一个新值,最后所有这些函数的执行结果会被合并到最终的结果对象中。>>> from pandas import *>>> df=DataFrame({'key1':['a','a','b','b','a'],'...转载 2018-05-17 13:46:54 · 651 阅读 · 0 评论 -
sklearn的train_test_split
train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签格式: (X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_s...原创 2018-05-15 19:59:07 · 471 阅读 · 0 评论 -
特征工程之特征选择
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法,这里只是对一些常用的方法做一个总结。1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。2. 选择合适的特...转载 2018-05-16 10:58:56 · 965 阅读 · 1 评论 -
机器学习:机器学习GBDT、XGBoost、LightGBM介绍
本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步...转载 2018-05-16 14:23:40 · 535 阅读 · 0 评论 -
机器学习lightGBM的快速安装
环境:win10 + anaconda3LightGBM 是一个梯度 boosting 框架,使用基于学习算法的决策树。它可以说是分布式的,高效的,它有以下优势: 更快的训练效率 低内存使用 更好的准确率 支持并行学习 可处理大规模数据今天学习LightGBM,但是安装比较费事,最后终于找到了简单的方法。下面是具体的配置过程。方...原创 2018-05-16 15:59:31 · 4835 阅读 · 1 评论 -
Python datetime模块详解、示例
一、datetime模块介绍(一)、datetime模块中包含如下类:类名 功能说明date 日期对象,常用的属性有year, month, daytime 时间对象datetime 日期时间对象,常用的属性有hour, minute, second, microseconddatetime_CAPI 日期时间对象C语言接口timedelta 时间间隔,即两个时间点之间的长度tzinf...转载 2018-05-16 21:47:11 · 297 阅读 · 0 评论