weixin_43440760-CSDN博客

# 默认按照行索引进行排序data.sort_index() # 按列索引进行排序data.sort_index(axis=1)# 默认为正序,ascengding设置为False为倒序data.sort_index(ascending = False)# 按照指定列的值进行排序data.sort_values(by = 'timestamp')# 指定列可以为多列data.sort_values(by = ['timestamp1','timestamp2'])...

2020-10-21 09:36:31 1145 1

原创 python DataFrame筛选符合特定条件的行

获得a列中值为1的行data[data['a'].isin([1])]获得a列中值为1或2的行data[data['a'].isin([1,2])]获得a列中值大于1、小于2的行data[(data['a']<2)&(data['a']>1)]

2020-10-17 16:11:32 54000

原创 hive简介/与传统数据库的区别/大数据生态

文章目录1. hive简介2. hive与传统数据库（Mysql）的区别2. hive所在的大数据生态1. hive简介hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载(ETL)，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce

2020-10-12 14:41:03 598

原创 LighrtGBM画图

文章目录1. 加载模块2. 加载数据3. 为进一步绘图训练和记录验证结果4. 训练过程中绘制指标结果5. 绘制参数重要性6. 绘制分割值直方图（split value histogram）7. 绘制指定树8. 使用Graphviz绘制指定树1. 加载模块import lightgbm as lgbimport pandas as pdif lgb.compat.MATPLOTLIB_INSTALLED: import matplotlib.pyplot as pltelse: r

2020-10-10 15:59:34 1163

原创 python实现LightGBM(进阶)

文章目录1. 模块准备2. 加载并构建数据集3. 配置参数4. 存储并读取模型（JSON）5. 特征重要性6. 模型预测7. 存储并读取模型（pickle）8. 训练（断点训练/学习率衰减/训练过程修改参数）9. 自定义目标函数/评价指标10. 回调函数1. 模块准备import jsonimport lightgbm as lgbimport pandas as pdimport numpy as npfrom sklearn.metrics import mean_squared_erro

2020-10-10 15:19:42 1215 1

转载 python中序列化与反序列化（pickle/Json）

文章目录1. 为什么要序列化？2. json 序列化2.1 dumps和dump 序列化方法2.2 loads和load 反序列化方法2. pickle 序列化2.1 dumps和dump 序列化方法2.2 loads和load 反序列化方法1. 为什么要序列化？便于存储——持久保存状态在断电或重启程序之前将程序当前内存中所有的数据都保存下来（保存到文件中），以便于下次程序执行能够从文件中载入之前的数据，然后继续执行。便于传输——跨平台数据交互序列化之后，不仅可以把序列化后的内容写入磁盘，

2020-10-10 14:56:56 140

原创 lgt.Dataset构建模型数据详解

lgb中数据在使用前，需要经过Dataset处理。import lightgbm as lgblgb_train = lgb.Dataset(X_train, y_train)lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)lgb.Dataset(data, label=None, reference=None, weight=None, group=None, init_score=None, silent=Fals

2020-10-09 15:39:59 4872

原创 python实现LightGBM(基础案例)

文章目录1. 基础案例（原生状态）2. sklearn实现1. 基础案例（原生状态）构建数据集训练及预测（basic)训练时同步验证提前停止保存模型import lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_errorprint('Loading data...')# 加载或构造数据df_train = pd.read_csv('../regression/regressio

2020-10-09 14:52:42 10232 4

原创指定区间离散化

有时可以直接根据业务特征对数据进行离散化，指定需要分区的区间或数据点，形成最终的标记数据。假设有一组数据：a = [1，3，7，10，23，50]，以10，30为分割点，将数据分为三个区间。不指定区间名称import pandas as pda = [1,3,7,10,23,50]cut_a = pd.cut(a,[0,10,30,50])[(0, 10], (0, 10], (0, 10], (0, 10], (10, 30], (30, 50]]Categories (3, i

2020-09-28 10:50:54 320

原创 LightGBM之metric的选择

@[TOC]LightGBM之metric的选择欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将

2020-09-28 10:19:15 10704 1

weixin_43440760的博客

原创 SelectKBest的使用：进行特征寻优

原创 DataFrame排序