dililidililidilili-CSDN博客

原创 LightGBM原生包

LightGBM原生包，可以可视化出训练过程，还可以可视化出tree。先根据数据量、特征量确定大概的参数。主要是max_depth、num_leaves、max_bin、min_data_in_leaf。网上可以找到很多参数确定的技巧。#Gridsearch调参import lightgbm as lgbfrom sklearn import metricsfrom sklearn import joblibfrom sklearn.datasets import load_svmlight_f

2021-10-27 15:10:53 283

原创 libsvm数据

libsvm在做恶意PDF检测项目时，找到一个开源项目“pdfclassifier-master”。其中的数据是libsvm格式。于是学习了一下。libsvm使用的训练数据和检验数据文件格式如下：[label] [index1]:[value1] [index2]:[value2] …[label] [index1]:[value1] [index2]:[value2] …label 目标值，就是类别标签，通常是一些整数。index 是有顺序的索引，通常是连续的整数。是指特征编号，必须按照升序

2021-10-27 14:40:38 332

原创 np.memmap

np.memmappandas的处理速度要比numpy慢，而遇到特别大的数组、矩阵时，numpy将数据读入内存也会发生IO内存不足，即便读入了内存操作也很慢，这时候用memmap。memmap可以将大文件分小段读写。使用时，会先为磁盘上的数据创建一个映射，对映射赋值，然后保存即可将数据写入磁盘。读取时也是通过映射，将修改通过映射写入磁盘。#创建memmapfp = np.memmap(filename, dtype=‘float32’, mode=‘w+’, shape=(3,4))#赋值写入me

2021-10-27 14:28:59 1168

CASIA v1.0

包含丰富的真实图像和篡改图像，是著名的用于图像篡改检测的数据库。

2019-02-18

UBiqlog4UCI

UbiqLog is the smartphone lifelogging tool that runs on the smartphone of 35 users for about 2 months.

2019-02-18

winhex 17.2 官方版本

强大的数据恢复工具，最新版的WinHex17.2，WinHex是一个专门用来对付各种日常紧急情况的小工具。winhex中文版可以用来检查和修复各种文件、恢复删除文件、硬盘损坏造成的数据丢失等。同时它还可以让你看到其他程序隐藏起来的文件和数据。

2013-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人