自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 常见损失汇总

文章目录回归模型的损失函数L1正则损失函数(即绝对值损失函数)L2正则损失函数(即欧拉损失函数)Pseudo-Huber 损失函数分类模型的损失函数Hinge损失函数两类交叉熵(Cross-entropy)损失函数加权交叉熵损失函数Sigmoid交叉熵损失函数Softmax交叉熵损失函数 回归模型...

2020-05-14 11:01:32 36 0

原创 RNN及LSTM原理

文章目录RNN为什么需要RNN(循环神经网络)RNN的结构及变体重要变体之Encoder-DecoderRNN的训练方法—BPTTRNN的梯度消失梯度爆炸问题LSTM长期依赖(Long-Term Dependencies)问题LSTM网络LSTM变体 RNN 为什么需要RNN(循环神经网络) 们都...

2020-05-10 12:38:50 534 0

原创 数据的异常点检测算法

文章目录Isolation ForestNumeric OutlierZ-scoreDBSCAN:基于密度的聚类 数据预处理的好坏,很大程度上决定了模型分析结果的好坏。其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环,它的存在可能对最终建立的模型的精度和泛化能力有较大的影...

2020-05-07 18:00:57 104 0

原创 常见聚类(K-means、DSCAN)算法及实现

文章目录K-meansK-meansk值如何确定K-mediods(K中心点)算法层次聚类密度聚类DSCAN谱聚类常用的评估方法:轮廓系数(Silhouette)相似度度量及相互系数 K-means K-means K-means算法优点: 1).是解决聚类问题的一种经典算法,原理简单,实现容易。...

2020-05-07 14:25:32 136 0

原创 KNN K值的选择

文章目录误差KNNK值的选择 误差 近似误差:可以理解为对现有训练集的训练误差。 估计误差:可以理解为对测试集的测试误差。 近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。 估计误差关注测...

2020-05-03 13:19:32 169 0

原创 特征选择(过滤法、包装法、嵌入法)

文章目录Filter过滤式方法方差选择法相关系数法卡方检验互信息法和最大信息系数Mutual information and maximal information coefficient (MIC)Wrapper封装式方法递归特征消除法Recursive feature elimination ...

2020-04-29 20:33:16 333 0

原创 Bagging和Boosting(偏差与方差)

文章目录集成学习baggingboosting 集成学习 bagging boosting

2020-04-26 14:52:07 104 0

原创 样本不平衡的常用处理方法

文章目录数据不平衡为什么类别不平横会影响模型的输出?如何解决 数据不平衡 很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,也就是所谓的“二八原理”。 不平衡程度相同的问题...

2020-04-20 15:39:28 254 0

原创 决策树系列

文章目录决策树过程ID3熵条件熵信息增益C4.5CART(Classification And Regression Tree)决策树的优缺点剪枝随机森林 决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处,熵值为0。其具有可读性、分类速度快的优...

2020-04-18 20:16:59 58 0

原创 评估方法(交叉验证法、自助法、留出法)

文章目录留出法 hold-out交叉验证法 cross validationk折交叉验证留一法 leave-one-out cross validation自助法 bootstrapping 留出法 hold-out 留出法直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作...

2020-04-18 18:30:49 333 0

原创 deep & wide 原理

ss

2020-04-12 23:25:24 113 0

原创 DNNLinear组合分类器实战

文章目录在Census Income Data Set上训练训练集特征input_fnmodeltrain_and_evalmain在自己数据集上训练 在Census Income Data Set上训练 训练集 训练数据是Census Income Data Set 该数据集包含48000条样本...

2020-04-08 13:02:24 105 0

原创 DNNLinear组合分类器的使用 & Feature column

文章目录DNNLinearCombinedClassifier__init__trainevaluatepredictFeature column1.numeric_columns(数值列)2.bucketized_column(分桶列)3.categorical_column_with_iden...

2020-04-08 09:07:59 141 0

原创 pandas常见方法

文章目录pd.DataFrame的创建字典创建列表创建单个元素字典转DataFramepd.DataFrame的导入查看数据属性常用方法增删缺失值处理文本数据(字符串)处理索引设置 pandas中的DataFrame: 1、DataFrame是一种数据框结构,相当于是一个矩阵形式,单元格可以存放数...

2020-04-06 21:26:25 31 0

原创 目标检测指标性能评价(IOU,mAP等)

文章目录定位准确率IOU识别精度precisionrecallAPmAPP-R曲线速度 定位准确率 IOU 定位准确率可以通过检测窗口与我们自己标记的物体窗口的重叠度,即交并比,即Intersection-Over-Union(IOU)进行度量。设标记窗口为 A ,检测窗口为 B ,则 IOU 的...

2020-03-31 20:58:20 493 0

原创 目标检测

文章目录目标检测技术的演变:目标检测评估方法:rcnnSelective SearchSPP Net 目标检测技术的演变: RCNN->SppNET->Fast-RCNN->Faster-RCNN 目标检测评估方法: 检测评价函数 intersection-over-union ...

2020-03-25 20:46:45 264 0

原创 图像相关数据集

文章目录PASCAL VOCCIFAR-10CIFAR-100ImageNet PASCAL VOC PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每年都会举行一场图像识别challenge。该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中...

2020-03-24 14:18:02 215 0

原创 word2vec tf实战

文章目录下载语料库制作词表生成词对建立模型 下载语料库 # 第一步: 在下面这个地址下载语料库 def maybe_download(filename, expected_bytes): """ 这个函数的功能是: 如果filename不存在,就在上面的地址下...

2020-03-22 18:35:07 43 0

原创 tensorflow常见函数

文章目录tf.nn.embedding_lookup()tf.nn.nce_loss()tf.train.GradientDescentOptimizer()tf.random_uniform()tf.truncated_normal()tf.multiply()tf.matmul()tf.red...

2020-03-22 18:34:06 46 0

原创 word2vec与词嵌入

文章目录为什么需要做词嵌入独热编码词嵌入CBOW(Continuous Bag-of-Words)CBOW改进Skip-Gram 词嵌入:将一个单词(word)转换为一个向量(vector)表示。 word2vec:是实现词嵌入的一些算法的集合。 为什么需要做词嵌入 独热编码 独热编码即 One-...

2020-03-18 20:26:05 197 0

原创 广告投放

文章目录渠道EDM邮件推送APP消息推送短信公众号转化MAU:monthly active user(月活跃用户)DAU:daily active user(日活跃用户)UVPV新增用户留存率收费方式RTB:(RealTime Bidding)实时竞价CPD:(按天收费 Cost per day)...

2020-03-18 11:11:28 18 0

原创 python数据类型及互相转化

文章目录NumPyarrarymatrixpandasdataframe NumPy NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用, 这种组合广泛用于替代 MatLab,是一个强大的科学计算环境。 SciPy是算法库和数学工具包。包...

2020-03-17 16:29:50 21 0

原创 多种归一化方法

目录1、(0,1)标准化2、Z-score标准化3、Sigmoid函数 在数据挖掘中,当不同的特征列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等...

2020-03-16 11:33:47 14 0

原创 相似度、距离计算

目录Jaccard相关系数定义代码余弦相似度皮尔森相关系数欧几里德距离曼哈顿距离汉明距离(Hamming distance) Jaccard相关系数 定义 Jaccard(X,Y)=X∩YX∪Y Jaccard\left ( X,Y \right )= \frac{X\cap Y}{X\cup ...

2020-03-14 23:18:13 97 0

原创 matplotlib.pyplot——plt

这里写自定义目录标题plt.scatter():散点图显示函数的原型参数解释函数样例plt.legend():图例显示plt.xlabel("x"):横坐标plt.ylabel("y"):纵坐标 import matplotlib.pyplot as plt...

2020-03-14 13:13:33 126 0

原创 hadoop fs 命令详情

1 hadoop fs -ls <path> 列出指定目录下的子目录,支持pattern匹配(例:hadoop fs -ls hdfs://ns19/user/ma/usr/shgua*)。 2 hadoop fs -lsr <path> 递归列出该路径下所有子目录信...

2020-03-05 15:13:37 205 0

原创 pysaprk数据倾斜怎么解决?

一、数据倾斜危害? 单个或少数的节点数据量特别大,但一个 Stage 所耗费的时间,是由最慢的那个 Task 决定,所以数据倾斜会导致两个后果: OOM(单或少数的节点); 拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。 二、数据倾斜的现象 当发现如下现象时,十有八九...

2020-01-13 17:01:32 82 0

原创 Spark持久化、持久化级别

一、RDD持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计...

2020-01-11 22:09:40 111 0

原创 什么是RDD?RDD的特点?RDD与Dataframe的关系?

一、什么是RDD? RDD是Spark计算的时候操作的数据集,全称是Resilient Distributed Datasets(弹性分布式数据集)。 数据是分布在多台机器上的,为了好处理,将这些分布的数据抽象成一个RDD。这个RDD就是所有数据的代理,操作RDD就相当于操作分布在每台机器上的...

2020-01-10 16:46:50 79 0

原创 pyspark报错及处理

一、基本内存的介绍: --driver-memory 40g \ 内存 --executor-memory 40g \ 内存 --num-executors 200 \ 个数 --executor-cores 4 \ 速度 --driver-cores 4 \ 速度 1、由于spa...

2020-01-10 13:41:09 118 0

原创 Job、Stage、Task、宽依赖、窄依赖

宽依赖,窄依赖? 宽依赖: 发生shuffle时,一定会产生宽依赖,宽依赖是一个RDD中的一个Partition被多个子Partition所依赖(一个父亲多有儿子),也就是说每一个父RDD的Partition中的数据,都可能传输一部分到下一个RDD的多个partition中,此时一定会发生shu...

2020-01-10 12:14:23 24 0

原创 RDD的两种操作(Transformation和Action)

1、转换(transformation) 转换(transformation):即从现有的数据集创建一个新的数据集,返回一个新的RDD 的操作。Transformation都是惰性的,它们并不会直接计算结果。它们只是记住了这些应用到基础数据集上的转换动作。只有当发生一个要求返回结果给Driver...

2020-01-10 11:07:36 113 0

原创 什么是shuffle?为什么shuffle?什么算子shuffle?

1、什么是shuffle? 把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。 2、为什么需要shuffle? 在分布式计算框架中,数据本地化是一个很重要的考虑,即计算需要被分发到数据所在的位置,从而减少...

2020-01-09 14:06:30 340 0

原创 hive什么情况下避免MapReduce?

1.本地模式下,hive可以简单的读取目录路径下的数据,然后输出格式化后的数据到控制台。当执行 select * from tableName时直接将文件中数据格式化输出。 2.查询语句中的过滤条件只是分区字段的情况下,无论是否使用limit语句限制输出记录条数,也不会进行mapreduce。 ...

2020-01-08 17:34:17 94 0

原创 pyspark.ml.feature特征工程常用方法(二)

本篇博文主要是对pyspark.ml.feature模块的函数进行介绍,也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html pyspark.ml.fe...

2020-01-08 10:29:09 119 0

原创 pyspark.ml.feature特征工程常用方法(一)

本篇博文主要是对pyspark.ml.feature模块的函数进行介绍,也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html pyspark.ml.fe...

2020-01-01 21:21:48 91 0

原创 pyenv管理多版本python

在工作中不同项目对Python的版本有着不同的要求,所以我们需要在不同的版本间来回切换。而pyenv就是python的多版本管理工具,需要注意的是pyenv仅能够管理由pyenv自己安装的Python。 1、查看和安装Python #查看使用pyenv能安装什么版本的Python pyenv...

2019-12-30 15:48:27 110 0

原创 LeetCode-5: 最长回文子串(Python版)

题目:给定一个字符串s,找到s中最长的回文子串。你可以假设s的最大长度为 1000。 示例 1: 输入: "babad" 输出: "bab" 注意: "aba" 也是一个有效答案。 示例 2: 输入: "cbbd&...

2019-12-11 12:21:36 41 0

原创 二叉树的层序遍历(python)

剑指offer:从上到下打印二叉树 题目描述 从上往下打印出二叉树的每个节点,同层节点从左至右打印。 结果:[8,6,10,5,7,9,11] 解题思路 典型的使用队列的题目。每从队列头部获取一个节点,就将该节点的左右子节点存入队列的尾部。如此往复,直至队列为空。 代码 #c...

2019-08-23 17:05:19 436 0

原创 二叉树的前序、中序、后序遍历(python递归)

先序遍历 1、Binary Tree Preorder Traversal---leetcode144 #coding:utf-8 class Solution: #根左右 def preorderTraversal(self, root): if not ro...

2019-08-23 15:46:58 114 0

提示
确定要删除当前文章?
取消 删除