容光@October-CSDN博客

原创 Blending集成学习算法

(1) 将数据划分为训练集和测试集(test_set)(2) 创建第一层的多个模型(3) 使用train_set训练步骤2中的多个模型，然后用训练好的模型预测val_set和test_set得到val_predict,test_predict1；(4) 创建第二层的模型,使用val_predict作为训练集训练第二层的模型；(5) 使用第二层训练好的模型对第二层测试集test_predict1进行预测，该结果为整个测试集的结果。训练集80%* 70%、测试集20%、验证集80%* 30% 。训练

2021-05-12 02:57:04 279 3

原创集成学习：投票法

投票法是集成学习中常用的技巧，可以帮助我们提高模型的泛化能力，减少模型的错误率。一个常用的纠错方法是重复多次发送数据，并以少数服从多数的方法确定正确的传输数据。一般情况下，错误总是发生在局部，因此融合多个数据是降低误差的一个好方法，这就是投票法的基本思路。对于回归模型来说，投票法最终的预测结果是多个其他回归模型预测结果的平均值。对于分类模型，硬投票法的预测结果是多个模型预测结果中出现次数最多的类别，软投票对各类预测结果的概率进行求和，最终选取概率之和最大的类标签。投票法是一种遵循少数服从多数原则的集

2021-04-15 02:39:11 826

原创合约编写实战实例

一、简单代币合约pragma solidity > 0.4.22;contract Coin{ //这里我们定义了一个address 作为key, uint做为value的hashTable balances; 我们还定义了一个address的变量minter; address public minter; mapping(address=>uint) balances; event Sent(address from, address to, uint amount); construc

2021-03-27 23:20:36 447

原创建模与调参

了解各种模型以及模型的评价和调参策略内容介绍逻辑回归模型：理解逻辑回归模型；逻辑回归模型的应用；逻辑回归的优缺点；树模型：理解树模型；树模型的应用；树模型的优缺点；集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估：回归模型/树模型/集成模型；模型评估方法；模型评价结果；模型调参：贪心调参方法；网

2021-03-24 23:08:24 249

原创 web3.js以太坊客户端

以太坊客户端是一个软件应用程序，它实现以太坊规范并通过p2p网络与其他以太坊客户端进行通信。如果不同的以太坊客户端符合参考规范和标准化通信协议，则可以进行相互操作。这些基于以太坊的网络中有：以太坊，以太坊经典，Ella，Expanse，Ubiq，Musicoin等等。虽然大多数在协议级别兼容，但这些网络通常具有特殊要求，以太坊客户端软件的维护人员、需要进行微小更改、以支持每个网络的功能或属性太坊的多种客户端go-ethereum ( Go )官方推荐，开发使用最多parity ( Rust )

2021-03-24 02:59:09 561

原创特征工程

特征工程数据处理* 时间序列数据格式处理* 加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh 进行时间序列特征处理# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions import im

2021-03-23 00:20:07 74

原创 DeepFM

对于CTR问题，被证明的最有效的提升任务表现的策略是特征组合(Feature Interaction), 在CTR问题的探究历史上来看就是如何更好地学习特征组合，进而更加精确地描述数据的特点。可以说这是基础推荐模型到深度学习推荐模型遵循的一个主要的思想。而组合特征大牛们研究过组合二阶特征，三阶甚至更高阶，但是面临一个问题就是随着阶数的提升，复杂度就成几何倍的升高。这样即使模型的表现更好了，但是推荐系统在实时性的要求也不能满足了。所以很多模型的出现都是为了解决另外一个更加深入的问题：如何更高效的学习特征组合？

2021-03-22 00:22:12 61

原创 Solidity编程语言

Solidity 是一门面向合约的、为实现智能合约而创建的高级编程语言。这门语言受到了 C++，Python 和 Javascript 语言的影响，设计的目的是能在以太坊虚拟机（EVM）上运行。Solidity 是静态类型语言，支持继承、库和复杂的用户定义类型等特性。 Solidity 编程的推荐方式是使用 Remix。Remix是一个基于 Web 浏览器的 IDE，它可以让你编写 Solidity 智能合约，然后部署并运行该智能合约。Solidity 源码文件通常以 .sol 作为扩展名。以太坊底

2021-03-21 00:14:07 6296

原创心电图心跳信号多分类预测

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy；可视化库 matplotlib、seabon；载入数据：载入训练集和测试集；简略观察数据(head()+shape)；数据总览:通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型判断数据缺失和异常查看每列的存在nan情况异常值检测了解

2021-03-20 00:06:00 149

原创推荐系统-DeepCrossing

这是一个把深度学习架构应用于推荐系统中的模型， 2016年由微软提出，完整的解决了特征工程、稀疏向量稠密化，多层神经网络进行优化目标拟合等一系列深度学习再推荐系统的应用问题。这个模型涉及到的技术比较基础，在传统神经网络的基础上加入了embedding，残差连接等思想，且结构比较简单.DeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐，用户在输入搜索词之后，搜索引擎除了返回相关结果，还返回与搜索词相关的广告，Deep Crossing的优化目标就是预测对于某一广告，用户

2021-03-16 23:48:42 108

原创心电图分析

从这段文字可以看出医疗大数据的数据挖掘具有重要意义！阿里云提供了以下比赛：比赛地址：https://tianchi.aliyun.com/competition/entrance/531883/introduction赛题以预测心电图心跳信号类别为任务，属于统计分类问题！该数据来自某平台心电图数据记录，总数据量超过20万，主要为1列心跳信号序列数据，其中每个样本的信号序列采样频次一致，长度相等。为了保证比赛的公平性，将会从中抽取10万条作为训练集，2万条作为测试集A，2万条作为测试集B，同时会对心跳.

2021-03-16 23:37:36 298

原创 NLP文本分类问题

baseline思路：使用CNN进行定长字符分类；运行系统要求：Python2/3，内存4G，有无GPU都可以%pylab inline 又出现这种问题，前面符号似乎不适合目前系统。名称大小LinkOCNLI_train1128.csv5.78MBhttp://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531841/OCNLI_train1128.csvTNEWS_train1128.csv4.38MBh

2021-02-26 00:05:20 190

原创异常检测问题

现在已经安装了torch，但是：ModuleNotFoundError: No module named ‘torchvision’进行安装，成功。显示缺失权重之类文件，要去下载。像这种有网址提示的不懂怎么下载？是用wget直接弄吗？进程较慢，后面的。。。...

2021-02-25 23:49:11 98

原创时间序列分析

显示缺少一个文件 h5有些地方是%，%%，会出错，显示无效，没搞懂是哪里有问题？整个代码基本为：工具包导入&数据读取‘’’安装工具!pip install netCDF4 #这里不懂是什么？‘’’import pandas as pdimport numpy as npimport tensorflow as tffrom tensorflow.keras.optimizers import Adamimport matplotlib.pyplot as plti.

2021-02-25 23:36:41 601

原创潮汐点的群智优化相关问题

1、数据读取读不出来，可能不是csv文件数据打不开，后面的都搞不了。

2021-02-24 23:27:01 116

原创关于文本分类的问题

先下载这三个数据把地址考入进去是乱码，不懂要在哪个里面去下载？数据标注处理def parse_json(d):arr = np.array([d[‘top’], d[‘height’], d[‘left’], d[‘width’], d[‘label’]])arr = arr.astype(int)return arrimg = cv2.imread(’…/input/train/000000.png’)arr = parse_json(train_json[‘000000.png.

2021-02-22 00:01:07 166 1

原创关于时间序列的问题

在这个比赛学习里主要是操作了几天docker环境，按照文档的步骤，基本算是装好了，中间在官网申请了一个帐号密码，但听今天的讨论同学说是要加一个阿里云镜像的步骤，这个我明天开始弄吧，得翻文档去看，还有这个海洋检测的代码可能也要在比赛官网和其他文档中查找，具体是运行哪个文件不太清楚。但是感觉这个比赛挺重要，因为我有相关项目，并且我平时处理得最多的数据就是时间序列数据，多学习下计算科学方面的经验。这个是安装好的界面，但是后面运行中输入帐号密码有问题。还得努力了解清楚。...

2021-02-21 23:46:08 151

原创关于布匹检测的问题

我在群文件里面看到有两个框架做布匹检测问题，tensorflow和pytorch里面代码有一些看不懂，也不太清楚什么是baseline？什么样的提交的结果叫很好？import tensorflow as tfimport tensorflow.keras.backend as Kfrom tensorflow.keras.layers import *from tensorflow.keras.models import *from tensorflow.keras.optimizers imp

2021-02-21 23:35:04 270 1

原创 2021-02-20

FENCE_ID|FENCE_TYPE|BELONG_AREA观日路(望海路至会展路段 )R_1|1|厦门象屿路0_R_1|1|厦门望海路0_R_2|1|厦门望海路0_R_1|1|厦门云顶北路0_R_45|1|厦门云顶中路0_L_4|1|厦门前埔东路_R_1|1|厦门长岸路_L_13|1|厦门云顶中路0_L_A03002|1|厦门望海路0_L_1|1|厦门龙伏路0_L_4|1|厦门创新二路_R|1|厦门环岛干道0_R_33|1|厦门仙岳路0_L_A14001|1|厦门湖滨西路0

2021-02-20 00:10:41 100

原创高维数据的异常检测

随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性，子空间与

2021-01-24 16:23:49 167

原创基于相似度的方法

“异常”通常是一个主观的判断，需要结合业务背景和环境来具体分析确定。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值，同时也更具有可解释性。嵌套循环第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于个数据点与当前点的距离在之内，则将该点自动标记为非异常值。这样计算的时间复杂度为，当数据量比较大时，这样计算是及不划算的。因此，需要修剪方法以加快距离计算。基于单元的方法在基于单元格的技术中，数据空间被划分为单元格

2021-01-21 23:44:41 150

原创线性模型

一类相关性分析试图通过其他变量预测单独的属性值，另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归，后者一个典型的例子是主成分分析。假设一：近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二：子空间假设。子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。数据可视化最小二乘法梯度下降法数据集监督学习一般靠数据驱动。我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们

2021-01-18 23:22:31 158

原创基于统计学方法

异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。----相当于假设检验参数方法假定正常的数据对象被一个以为参数的参数分布产生。该参数分布的概率密度函数给出对象被该分布产生的概率。该值越小，越可能是异常点。非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的，不预先确定（所以非参数方法并不是说模型是完全无参的，完全无参的情况下从数据学习模型是不可能的）。如果数据点超

2021-01-15 23:37:03 206

原创异常检测基本概念

异常检测（Outlier Detection），顾名思义，是识别与正常数据不同的数据，与预期行为差异大的数据。识别如信用卡欺诈，工业生产异常，网络流里的异常（网络侵入）等问题，针对的是少数的事件。点异常上下文异常群体异常：例如社交网络中虚假账号形成的集合作为群体异常子集，但子集中的个体节点可能与真实账号一样正常。有监督：训练集的正例和反例均有标签无监督：训练集无标签半监督：在训练集中只有单一类别（正常实例）的实例，没有异常实例参与训练异常检测场景：故障检测物联网异常检测欺诈检测工业异

2021-01-12 17:27:58 473

原创模型排序模型融合学习

LGB的排序模型LGB的分类模型深度学习的分类模型DIN两种比较经典的模型集成的方法：输出结果加权融合Staking（将模型的输出结果再使用一个简单模型进行预测）–感觉这里用的统计的组合平均法import numpy as npimport pandas as pdimport picklefrom tqdm import tqdmimport gc, osimport timefrom datetime import datetimeimport lightgbm as lgb

2020-12-06 11:13:50 1260

原创特征工程--理解

构造特征的思路是这样，我们知道每个用户的点击文章是与其历史点击的文章信息是有很大关联的，比如同一个主题，相似等等。所以特征构造这块很重要的一系列特征是要结合用户的历史点击文章信息。我们已经得到了每个用户及点击候选文章的两列的一个数据集，而我们的目的是要预测最后一次点击的文章，比较自然的一个思路就是和其最后几次点击的文章产生关系，这样既考虑了其历史点击文章信息，又得离最后一次点击较近，因为新闻很大的一个特点就是注重时效性。往往用户的最后一次点击会和其最后几次点击有很大的关联。所以我们就可以

2020-12-03 18:41:39 568

原创多路召回理解

“多路召回”策略指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。使用多种不同的策略来获取用户排序的候选商品集合，而具体使用哪些召回策略其实是与业务强相关的，针对不同的任务就会有对于该业务真实场景下需要考虑的召回规则。例如新闻推荐，召回规则可以是“热门视频”、“导演召回”、“演员召回”、“最近上映“、”流行趋势“、”类型召回“等等。import pandas as pdim

2020-11-30 22:27:49 1335

原创推荐-数据分析

从不同指标逐步分析、作图展示导入相关包%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsplt.rc(‘font’, family=‘SimHei’, size=13)import os,gc,re,warnings,syswarnings.filterwarnings(“ignore”)读取数据path = ‘./data

2020-11-26 22:25:42 210

原创赛题理解

今天运行了推荐系统的程序，发现挺好玩，得出了结果，也提交了阿里云的比赛，学习群中的同学也都非常愿意帮助我，我感觉有点小幸福。直接输入1次#，并按下space后，将生成1级标题。输入2次#，并按下space后，将生成2级标题。以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。如何改变文本的样式强调文本强调文本加粗文本加粗文本标记文本删除文本引用文本H2O is是液体。210 运算结果是 1024.插入链接与图片链接: link.图片: 带尺寸的图

2020-11-25 19:41:26 149

原创输入输出

numpy.sort(a[, axis=-1, kind=‘quicksort’, order=None]) Return a sorted copy of an array.a. axis：排序沿数组的（轴）方向，0表示按行，1表示按列，None表示展开来排序，默认为-1，表示沿最后的轴排序。b. kind：排序的算法，提供了快排’quicksort’、混排’mergesort’、堆排’heapsort’，默认为‘quicksort’。c. order：排序的字段名，可指定字段排序，默认为None

2020-10-31 20:27:11 89

原创 GBDT模型+LR模型

GBDT全称梯度提升决策树，在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一。GBDT是通过采用加法模型(即基函数的线性组合），以及不断减小训练过程产生的误差来达到将数据分类或者回归的算法，其训练过程如下：最终的总分类器是将每轮训练得到的弱分类器加权求和得到的（也就是加法模型）。gbdt无论用于分类还是回归一直都是使用的CART回归树，这里基本都是运用求导数达到极值位置！...

2020-10-31 20:15:49 310

原创逻辑函数

逻辑函数numpy.all(a, axis=None, out=None, keepdims=np._NoValue)numpy.any(a, axis=None, out=None, keepdims=np._NoValue)numpy.isnan(x, *args, **kwargs)numpy.logical_notnumpy.logical_andnumpy.logical_ornumpy.logical_xornumpy.greater(x1, x2, *args, **kwar

2020-10-27 22:35:33 110

原创点击率预估

点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.广告点击率预估是需要得到某个用户对某个广告的点击率，然后结合广告的出价用于排序；而推荐算法很多大多数情况下只需要得到一个最优的推荐次序，即TopN推荐的问题。当然也可以利用广告的点击率来排序，作为广告的推荐。Memorization 和 Generalization是推荐系统很常见的两个概念，其中Memorization指的是通过用户与商品的交互信息矩阵学习规则，而Generali

2020-10-27 22:28:06 866

原创矩阵分解算法的原理-FM模型引入

矩阵分解模型找两个矩阵，用户兴趣和物品的隐向量表达，把评分矩阵分解成Q和P两个矩阵乘积的形式，基于这两个矩阵去预测某个用户对某个物品的评分，基于这个评分去进行推荐，这就是矩阵分解算法的原理。FM模型引入逻辑回归模型LR需要改进–二阶交叉项引入了深度学习思路...

2020-10-27 22:16:26 248

原创数组操作

numpy.ndarray.shape 表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。numpy.ndarray.flat 将数组转换为一维的迭代器，可以用for访问数组每一个元素。numpy.ndarray.flatten([order=‘C’]) 将数组的副本转换为一维数组，并返回。注意两者的区别，返回的性质不同！y = np.ravel(x)ravel() 返回的是视图。reshape() 函数当参数newshape = [rows,-1] 时，将根据行

2020-10-25 20:14:17 228

原创矩阵分解模型(MF)

协同过滤算法处理稀疏矩阵的能力比较弱，为增强泛化能力，从协同过滤中衍生出矩阵分解模型(MF)或者叫隐语义模型。隐语义模型最早在文本领域被提出，用于找到文本的隐含语义。2006年用于推荐中，核心思想是通过隐含特征联系用户兴趣和物品，基于用户的行为找出潜在的主题和分类。矩阵分解算法的求解：特征值分解(EVD)或者奇异值分解(SVD）Simon Funk公布了一个矩阵分解算法叫做Funk-SVD, 后来被Netflix Prize的冠军Koren称为Latent Factor Model(LFM)。 F

2020-10-25 18:31:33 2439

空空如也

空空如也