- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 LightGBM原生包
LightGBM原生包,可以可视化出训练过程,还可以可视化出tree。先根据数据量、特征量确定大概的参数。主要是max_depth、num_leaves、max_bin、min_data_in_leaf。网上可以找到很多参数确定的技巧。#Gridsearch调参import lightgbm as lgbfrom sklearn import metricsfrom sklearn import joblibfrom sklearn.datasets import load_svmlight_f
2021-10-27 15:10:53
283
原创 libsvm数据
libsvm在做恶意PDF检测项目时,找到一个开源项目“pdfclassifier-master”。其中的数据是libsvm格式。于是学习了一下。libsvm使用的训练数据和检验数据文件格式如下:[label] [index1]:[value1] [index2]:[value2] …[label] [index1]:[value1] [index2]:[value2] …label 目标值,就是类别标签,通常是一些整数。index 是有顺序的索引,通常是连续的整数。是指特征编号,必须按照升序
2021-10-27 14:40:38
332
原创 np.memmap
np.memmappandas的处理速度要比numpy慢,而遇到特别大的数组、矩阵时,numpy将数据读入内存也会发生IO内存不足,即便读入了内存操作也很慢,这时候用memmap。memmap可以将大文件分小段读写。使用时,会先为磁盘上的数据创建一个映射,对映射赋值,然后保存即可将数据写入磁盘。读取时也是通过映射,将修改通过映射写入磁盘。#创建memmapfp = np.memmap(filename, dtype=‘float32’, mode=‘w+’, shape=(3,4))#赋值写入me
2021-10-27 14:28:59
1168
UBiqlog4UCI
2019-02-18
winhex 17.2 官方版本
2013-12-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人