自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 pandas用in筛选数据

错误写法data = data[data["NodeId"] in (["fe50c54a-5091-4fb2-8487-efeffd10592d","fcc671c2-c92c-4285-934f-dda38a2ed475"])] File "C:\software\python\lib\site-packages\pandas\core\generic.py", line 1478, ...

2019-07-28 15:49:57 9075

原创 ImportError: Install xlrd >= 1.0.0 for Excel support

pandas 读取xlsx格式数据时pd.read_excel报错: File "C:\software\python\lib\site-packages\pandas\util\_decorators.py", line 188, in wrapper return func(*args, **kwargs) File "C:\software\python\lib\site-...

2019-07-28 15:32:19 712

原创 AdaBoost回归

回归过程上面说的是adaboost做分类的过程,如果是做回归呢分类的过程,如何计算当前模型的权重即误差率,如何更新样本权重。样本的权重是根据当前分类器的误差率来计算的,当前模型的误差率通过如下方法来计算:1. 计算训练集上的最大误差Ek=max⁡∣yi−Gk(xi)∣i=1,2…mE_{k}=\max \left|y_{i}-G_{k}\left(x_{i}\right)\right|...

2019-07-27 16:37:46 3163 10

原创 交叉验证的作用

1. 可以使用所有的数据一般模型训练都要把数据分成训练集和验证集合,这就导致训练数据比原始的数据要少,并且验证集也无法是所有的原始数据。如果使用交叉验证,所有数据都可以用作训练(但不是同一个模型),所有数据也都可以用作验证集。2. 评估模型的稳定性及调参比如5折交叉验证,在参数确定了的情况下,我们可以将数据弄成五份,每一份中80%训练,20%作为测试集,这样可以训练五个模型,这五个模型除了...

2019-07-27 16:22:23 11020 1

原创 L1正则产生的特征稀疏性

正则方法:LASSO: L1正则Ridge: L2正则蓝色区域表示正则项, 区域表示范围,一般都是限制正则项在不超过t的范围下求最小化残差的平方和。图中椭圆曲线为残差的等高线,那么切点出为满足正则项不超过t的残差最小值。可以看到L1正则使得切点落在坐标轴上,也就意味着β1\beta_{1}β1​或者β2\beta_{2}β2​至少有一个为0,从而差生稀疏性。而L2正则的切点很难恰好落...

2019-07-24 22:25:51 303

原创 XGBoost分块并行与缓存优化

XGBoost的并行不是树粒度的而是特征粒度的,随机森林就是树粒度的并行。寻找分裂点的时候,算法中先是遍历所有特征再遍历每个特征下的所有值。遍历特征下所有值时要求值是排序好的,这样就可以使用差加速。如果不排序,那么计算分类时候的损失函数减少量就没法达到O(1)的复杂度,因为二叉树的分裂是> x,分到a子树这样的形式。在建树的过程中,最耗时是找最优的切分点,而这个过程中,最耗时的部分...

2019-07-24 22:25:45 2748 1

原创 过拟合问题

发现过拟合过拟合的原因训练集和真实数据的分布不相同样本中噪音过大,使得模型学到噪音的特征模型太复杂减缓过拟合模型方面:简化模型比如调整树模型的深度,神经网络的中的参数选择适当的模型LR通常比提升树模型更不容易过拟合模型融合多个模型融合的结果会被单个模型的结果误差小正则项L1,L2正则对模型中的参数进行惩罚,迫使模型不会变得那么复杂early stopping...

2019-07-24 22:25:39 428

原创 L1不可导怎么办—坐标下降算法

本文为学习 https://blog.csdn.net/u013802188/article/details/40476989/ 的笔记带L1正则的损失函数,在求梯度时可能遇到不可求导的点,即非光滑的点,这时可以使用非梯度优化的方法比如坐标下降法。坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行线性搜索(线性搜索是不需要求导数的),通过循环使用不同的坐标方法来达到目标函...

2019-07-24 22:25:34 2501

原创 AdaBoost分类过程

1.初始化样本权重,初始值为1/ND1=(w11,w12⋯w1i⋯ ,w1N),w1i=1N,i=1,2,⋯ ,ND_{1}=\left(w_{11}, w_{12} \cdots w_{1 i} \cdots, w_{1 N}\right), w_{1 i}=\frac{1}{N}, i=1,2, \cdots, ND1​=(w11​...

2019-07-24 22:25:27 748 2

原创 模型的方差与偏差

泛化误差可以分为三个部分,偏差(bias), 方差(variance) 和噪声(noise)。其中可控的是偏差(bias), 方差(variance)。偏差: Bias,指的是模型预测值偏离真实值的程度;方差: Variance,值模型预测值的离散程度,比如两条几乎相同的样本,但是预测值可能差很多;Bias 和Variance 的关系如下图所示,模型可以预测的不准但是方差很小,比如第三个圆...

2019-07-24 22:25:21 5835

原创 线性回归模型损失函数为什么是均方差

为什么是均方差直观上看,均方差是表达的是欧几里得距离,表示的是预测点到原来点的距离,这个距离越小越好。然而,将均方差作为损失函数是通过推导得到的。首先,线性回归属于普通线性模型,而普通线性回归中的误差项满足下面四个假设:零均值假设:误差项是期望为零的随机变量,即E(e)=0E(e)=0E(e)=0不变方差假设:误差项e的方差(用σ2σ^{2}σ2表示)是常数且与 x1,x2,…. 的值...

2019-07-24 22:24:35 4796 1

原创 如何跳出局部最优

初始参数随机,用不同的初始参数进行多组实验找出最优的一组解,这相当于从不同的位置进行搜索带动量的梯度下降,可能会越过最低点随机梯度下降,加入随机因素,每次取一个样本计算梯度,因为单点的最优方向可能不是全局的最优方向,表现在图像上就是在寻找全局最优的路上饶了很多弯路才到达最优点。使用模拟退火算法,每次以一定的概率允许移动到比当前解差的点,可以跳过局部最优...

2019-07-24 22:24:27 6349 1

原创 为什么数据需要归一化

归一化是缩放单个样本以具有单位范数的过程, 把数据变成(0,1)之间的小数,把有量纲的表达式变成无量纲的表达式,(成为了一个相对值),常用的方法为:x′=x−min⁡(x)max⁡(x)−min⁡(x)x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}x′=max(x)−min(x)x−min(x)​这里要注意的是,归一化的缩放可按比例也可以不按...

2019-07-24 22:24:19 1403

原创 TF入门之模型的保存与读取

参考资料:https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/4_Utils/save_restore_model.pyfrom tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tfmnist =...

2019-07-24 16:34:55 2647

原创 TF入门之自编码器

参考资料:https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/autoencoder.pyimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltfrom tensorf...

2019-07-24 14:56:43 393

原创 TF入门之双向LSTM

参考资料https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/bidirectional_rnn.pyimport tensorflow as tffrom tensorflow.contrib import rnnimport numpy as npfrom...

2019-07-23 15:45:32 840

原创 TF入门之LSTM

import tensorflow as tffrom tensorflow.contrib import rnn# Import MNIST datafrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/tmp/data/", one_hot=True)...

2019-07-23 13:53:22 1286

原创 LC.1128. Number of Equivalent Domino Pairs

class Solution(object): def numEquivDominoPairs(self, dominoes): """ 用字典保存访问过的tuple,对于新的tuple,如果两个元素不同,那么看两个元素组成的key在不在dict中 如果相同看一个就可以了 """ from collectio...

2019-07-21 15:33:52 371 1

原创 GSP(Generalized Sequential Pattern Mining)算法

Generalized Sequential Pattern (GSP) Mining数据预处理根据Id将item 根据时间排序得到如下的序列,一个项集里面如果有多个项,说明这个项集里面项s是属于同一个时间点的,内部不分先后顺序,一般按照字典序排列。GSP算法找出频繁一项集找出所有满足支持度的频繁一项集,支持度的计算是按照用户粒度的,比如一个用户ID下A出现了三次,那么A的计数只会...

2019-07-18 17:44:32 3958 1

原创 LC.1111. Maximum Nesting Depth of Two Valid Parentheses Strings

class Solution(object): def maxDepthAfterSplit(self, seq): """ 为了让深度最小,那么就要避免前后两个相同的括号被分到相同的一组 用栈的数据结构 每遇到一个右括号,将其对应的左括号弹出 所以每遇到一个左括号,要使其分到的组和他相邻的(左边的)的左括号...

2019-07-15 12:37:11 296

原创 LC.1123. Lowest Common Ancestor of Deepest Leaves

如果最深的点只有一个,那么返回的就是那个叶子节点如果有多个,从最底层往上遍历,如果节点的左子树和右子树中都包含最深的叶子节点,那么就更细res节点为当前的节点,这样从下往上最后一次更新的节点就是最终的结果# Definition for a binary tree node.class TreeNode(object): def __init__(self, x): ...

2019-07-14 13:23:16 283

原创 LC.1124. Longest Well-Performing Interval

class Solution(object): def longestWPI(self, hours): """ 贪心思想,最长的子序列和接近1 """ sumer = 0 dict = {} res = 0 for index, hour in enumerate(hour...

2019-07-14 13:20:26 687

原创 LC.1120. Maximum Average Subtree

class Solution(object): def maximumAverageSubtree(self, root): """ DFS,每个节点返回两个值,一个值是以该节点为根的树的节点的个数, 另一个值是以该节点为根的树的所有节点的和 """ self.res = -float('inf') ...

2019-07-13 23:11:15 627

原创 LC.1121. Divide Array Into Increasing Sequences

class Solution(object): def canDivideIntoSubsequences(self, nums, K): """ 贪心算法,先找出长度K的所有递增序列,并将其保存起来 到result中 然后对于剩下的元素,将其逐个插入到result中的递增序列中,因为result 中的序列都是递增的,我们找...

2019-07-13 23:08:59 302

原创 tf.contrib.factorization.KMeans 详解

API https://www.tensorflow.org/api_docs/python/tf/contrib/factorization/KMeans__init__( inputs, 输入张量 num_clusters, 簇的个数,如果initial_clusters为张量那么该参数就无效,簇的个数为张量的长度 initial_cluster...

2019-07-13 21:07:48 1185

原创 tf.nn.embedding_lookup用法

tf.nn.embedding_lookup(lookup_array, index_array)返回lookup_array中以index_array中值为下标的值array = np.array([2,0,1])look_up = np.array([4,5,6])res = tf.nn.embedding_lookup(look_up, array)with tf.Session(...

2019-07-13 21:04:19 789

原创 TF入门之最邻近算法

source from https://github.com/aymericdamien/TensorFlow-Examples/import numpy as npimport tensorflow as tf# 通过最邻近的点来决定样本的种类,没有训练过程吗,就是求最小距离from tensorflow.examples.tutorials.mnist import input_da...

2019-07-13 13:04:17 188

原创 TF reduction_indices用法

reduction_indices表示按照某个维度进行操作,经常用到2维以内的,三维以上的比较复杂暂不讨论array = np.array([[1,2,3],[4,5,6]])with tf.Session() as sess: print(sess.run(tf.reduce_sum(array, reduction_indices=1))) print(sess.run(tf....

2019-07-13 11:08:16 2193

原创 TF入门之逻辑回归

source from https://github.com/aymericdamien/TensorFlow-Examples/import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datafrom tensorflow.examples.tutorials.mnist import i...

2019-07-13 10:56:44 475

原创 TF入门之一元线性回归

source fromhttps://github.com/aymericdamien/TensorFlow-Examples/import tensorflow as tfimport numpyimport matplotlib.pyplot as pltrng = numpy.randomlearning_rate = 0.01training_epochs = 1000d...

2019-07-13 09:24:02 112

原创 LC.1109. Corporate Flight Bookings

class Solution(object): def corpFlightBookings(self, bookings, n): """ for (start, end, n) in booking 相当于公交车在start的地方上来了n个人,在end+1的地方下去了n个人,这样每一站车上的人数就是每个航班被预定的座位数 ...

2019-07-11 11:08:06 240

原创 LC.1110. Delete Nodes And Return Forest

# Definition for a binary tree node.class TreeNode(object): def __init__(self, x): self.val = x self.left = None self.right = Noneclass Solution(object): def delNod...

2019-07-08 09:58:15 329

原创 oserror: [winerror 126] the specified module could not be found

调用LightGBM的时候出现下面的错误,包已经安装了oserror: [winerror 126] the specified module could not be found lgb原因是缺乏 VC++相关运行库解决方法:下载VC++运行库,64位版本下载地址为 https://www.microsoft.com/zh-cn/download/confirmation.aspx?id...

2019-07-07 12:11:44 2993

原创 LC.372. Super Pow

class Solution(object): """ 二分递归,可解释性较强,中国剩余定理也可以做,数学做法 不想写了 递归,比如 2^7 可以看做 2^6 * 2, 2^6 = 2^3 * 2^3 """ def superPow(self, a, b): b = int("".join(list(map(str,b)))) ...

2019-07-06 23:47:46 247

原创 LC.966. Vowel Spellchecker

class Solution(object): def spellchecker(self, wordlist, queries): """ 三个map 1个存原始word 1个存不区分大小写的word 1个存不区分vowel的元素 """ origin_dict = {}...

2019-07-06 11:12:21 193

原创 LC.498. Diagonal Traverse

class Solution(object): def findDiagonalOrder(self, matrix): """ 将对角线的元素进行分组,对角线的第一个元素都在第一行和最后一列 对角线元素求出来后合并起来即可 """ if len(matrix) == 0 or len(matrix[0])...

2019-07-06 11:10:28 159

原创 LC.421. Maximum XOR of Two Numbers in an Array

class TreeNode: def __init__(self, val): self.val = val self.left = None self.right = Noneclass Solution(object): def findMaximumXOR(self, nums): """ ...

2019-07-06 09:44:31 175

原创 LC.968. Binary Tree Cameras

# Definition for a binary tree node.class TreeNode(object): def __init__(self, x): self.val = x self.left = None self.right = Noneclass Solution(object): def minCam...

2019-07-06 09:05:19 272

原创 LC.982. Triples with Bitwise AND Equal To Zero

class Solution(object): def countTriplets(self, A): """ 这道题就是一个带记忆的暴力搜 """ from collections import defaultdict result = 0 # 存key- count ,表示A中能与key...

2019-07-05 22:44:02 219

原创 OSError: [WinError 126] The specified module could not be found

卸载2.2.3版本安装2.2.2版本

2019-07-05 16:58:20 1827

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除