自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataAlgo

菜鸟的菜,菜鸟的鸟

  • 博客(31)
  • 资源 (2)
  • 收藏
  • 关注

原创 pickle文件加载multiprocessing.manager.dictionary报错No such file or directory

pickle文件加载multiprocessing.manager.dictionary报错No such file or directory

2022-09-29 15:56:35 571 1

原创 Spark连接redis问题 Caused by: java.io.NotSerializableException

Spark连接redis问题 Caused by: java.io.NotSerializableException

2022-09-13 19:10:00 1154 1

原创 ImportError: cannot import name ‘backend_config‘ from ‘tensorflow.python.keras‘

ImportError: cannot import name 'backend_config' from 'tensorflow.python.keras'

2022-08-19 14:47:32 2205

原创 大厂搜索相关文章汇总

搜索相关文章汇总

2022-07-08 17:01:01 209

原创 京东搜索商品隐式建模的理解

CIM商品隐式建模

2022-06-15 18:35:54 1025

原创 Transformer中Multi-Head的理解

transformer中multi-head的理解

2022-05-26 19:41:28 1747

转载 训练集、验证集、测试集以及交叉验证的理解

训练集、验证集、测试集以及交验验证的理解

2022-03-08 18:17:51 378

原创 python实现JAVA的compare字符串对比

python实现java的compare

2022-03-08 15:14:01 668

原创 conda问题CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anac

anaconda常见问题

2021-12-21 17:53:09 15403 3

原创 Distribution object has no attribute convert_2to3_doctests问题

Distribution object has no attribute convert_2to3_doctests

2021-12-21 10:57:26 3387 5

原创 tf.data.Dataset读取数据详细文档

tf.data.Dataset用法

2021-12-13 15:22:30 3526

原创 【feature_column处理】- crossed_column交叉列

1. crossed_column作用: 对hash映射后的特征进行交叉2. 特征交叉的优势: 在有些情况下,相比特征one-hot编码,会有更好的效果3. 参数说明:def crossed_column(keys, hash_bucket_size, hash_key=None):参数参数说明key可迭代的交叉特征hash_bucket_size一个int> 1.桶的数量。ont-hot的长度。hash_key指定将被使用的HASH_KEY Finge

2021-11-26 17:28:08 723

原创 【feature_column处理】- indicator_column(指示列)和embedding_column(嵌入列)

1. 开胃菜我们先来了解一下tf.feature_column.input_layerdef input_layer(features, feature_columns, weight_collections=None, trainable=True, cols_to_vars=None, cols_to_output_tensors=None)

2021-11-25 19:19:05 1170

原创 【feature_column处理】- bucketized_column分桶列

1. 在做特征处理的时候,我们不希望把一个数值直接传给模型,而是根据数值的范围对值分到不同的categories这个时候就用到了tf.feature_column.bucketized_column2.原理很简单,如图比如你对一个日期的特征要做处理,可以利用分桶的方式把它分到任意一个bucket里面给日期出分桶结果日期分桶表示1993[1, 0, 0, 0]2008[0, 1, 0, 0]2015[0, 0, 1, 0]2021[0, 0, 0, 1

2021-11-25 17:09:05 1295

原创 【feature_column处理】- numeric_column数值列

1· 对于连续特征来说,feature_column里面用的最多的就是Numeric column这个函数了Numeric column函数是比较简单的,我们直接看函数defdef numeric_column(key, shape=(1,), default_value=None, dtype=dtypes.float32, normalizer_fn

2021-11-25 15:41:17 1545

原创 【feature_column处理】- categorical_column_with_hash_bucket哈希列

categorical_column_with_hash_bucket哈希列,对于处理包含大量文字或数字类别的特征时可使用hash的方式,这能快速地建立对应的对照表分桶的方式,但这次分桶是根据hash的方式在有限的长度进行划分1. 比如:我们有120个单词,我们只希望分成100个类别,这个时候多出的20个怎么来划分?101: 101 % 100 = 1 标记1 —> 和1一个桶102: 102 % 100 = 2 标记2 —> 和2一个桶…120: 120 % 10

2021-11-24 16:57:08 1486

原创 【feature_column处理】- categorical_column_with_vocabulary分类词汇列

1. 上个专栏我们聊过,categorical_column_with_identity可以将词汇转化为one-hot的embedding形式,但是需要先将词汇转化成数字,然后再做onehot处理上篇博客,了解一下https://blog.csdn.net/qq_31878083/article/details/121512300?spm=1001.2014.3001.55022. 分类词汇列categorical_column_with_vocabulary_listcategorical

2021-11-24 15:11:22 1441

原创 【feature_column处理】- categorical_column_with_identity分类标识列

categorical_column_with_identity:把numerical data转乘one hot encoding但是该函数不直接对文本的list进行处理参数介绍:def categorical_column_with_identity(key, num_buckets, default_value=None):key: 要求输入features是一个字典,key是特征名称,value表示特征值。num_buckets: 分桶的个数

2021-11-24 12:11:11 1053

原创 BatchNorm和LayerNorm的区别

BatchNorm: 对一个batch-size样本内的每个特征做归一化LayerNorm: 针对每条样本,对每条样本的所有特征做归一化简单举例:假设现在有个二维矩阵:行代表batch-size, 列表示样本特征BatchNorm就是对这个二维矩阵中每一列的特征做归一化,也就是竖着做归一化LayerNorm就是对这个二维矩阵中每一行数据做归一化相同点: 都是在深度学习中让当前层的参数稳定下来,避免梯度消失或者梯度爆炸,方便后面的继续学习**不同点:如果你的特征依赖不同样本的统计参数,那

2021-11-22 10:36:33 10965

原创 tornado实现mysql接口服务

利用python现成的tornado包封装http,调用http接口服务tornado就不过多做介绍了,一个轻量级别低HTTP服务如需安装直接pip install tornado我这里是简单的获取mysql数据,做简单处理,封装成get请求的服务#!/usr/bin/env pythonfrom __future__ import print_functionimport jsonimport pymysqlimport subprocessimport tornado.escap

2021-11-10 21:35:27 1242

原创 python的round函数遇到问题TypeError: Invalid argument, not a string or column:

python的round函数碰到这种问题TypeError: Invalid argument, not a string or column: 1.992 of type <type 'float'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' function.很简单,加这个就可以了!import builtinsround = getattr(builtins, "round")...

2021-11-03 19:18:28 1750

原创 Spark-shell上运行sql命令报错 WARN metastore.ObjectStore

在spark-shell上运行sql语句,报错WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException刚开始在自己的IDEA上都可以编译成功sql部分的代码, 没想到在client上翻了车。google了好一会才发现是因为spark上conf里面缺少hive配置文件。很简单,找到hive里conf的下hive-site.xml文件 拷贝到spark的conf目录下cp h

2021-08-28 16:58:28 3066 2

原创 hive启动报错遇到的各种问题总结

首先你想自己搭建hadoop平台,可以按照我的上篇博客一步一步来,搭建好之后就可以安装Hive环境.手把手教你搭建你自己电脑的Hadoop平台安装Hive相对来说比安装hadoop轻松多了,但是有可能也会遇到以下这几种问题:1. java.sql.SQLException: Access denied for user ‘root’@‘localhost’ (using password: YES)这种情况的出现可能是因为你的mater上没有访问mysql的权限,这种比较好解决.进入你的mysql

2021-06-10 19:15:44 5557 1

原创 手把手教你搭建你自己电脑的Hadoop平台

划重点: 如果你想在自己的电脑上搭建hadoop平台, 前提你得先部署好虚拟机.比如你用VMmare工具在自己电脑上部署三台虚拟机,操作系统是CentOS三台机器分别是分别是:master 192.168.100.1slave1 192.168.100.2slave2 192.168.100.3⭐️ 现在就开始我们的搭建hadoop平台过程1. 下载hadoop源码包hadoop源码包下载2. 分别关闭三台机器的防火墙,为了让三台机器之间保持通信```bashroot账户下

2021-06-08 20:55:01 2048 3

原创 git超详细命令解析-创建自己的分支

背景不管是使用公司的gitlab还是开源的github都涉及到一些git命令,接下来就跟大家详细解析一下最最最最最常用的git命令和环境.gitlab为例首先公司gitlab的一项工程代码,需要很多人一起维护,所以线上master代码是线上正式环境代码,大家都不应该去轻易直接去更改master代码.首先应该创建自己的分支 1 clone工程代码到本地 git clone 项目地址 2 在本地新建分支 git branch 分支name 3 切换到自己刚建好的分支 git checkou

2021-06-07 18:59:02 4107

原创 谷歌双塔模型原理及Estimator实现

谷歌双塔模型原理及Estimator实现

2021-06-07 17:51:34 1326 1

原创 yum问题YumRepo Error: All mirror URLs are not using ftp, http[s] or file.

yum问题YumRepo Error: All mirror URLs are not using ftp, http[s] or file.

2021-04-01 17:32:51 462

转载 面试的过程,太过真实。。。。。

来源:https://www.zhihu.com/question/31225105/answer/582508111人们都说,这个世界上有两种人注定单身,一种是太优秀的,另一种是太平凡的。我一听 呀?那我这岂不是就不优秀了吗,于是毅然决然和女朋友分了手。人们都说,互联网寒冬来了,这个时候还在大面积招人的公司,必然是牛逼的公司。而这个时候勇敢跳槽的人,必然是牛逼的人。于是2019年1月25...

2019-03-12 17:50:54 875

原创 HIVE表不同分区数据处理

HIVE表处理数据的时候可能会遇到这种问题:找出一张表中的两个分区的数据,做相应的处理(加减乘除等逻辑运算),其实有很多种方法,比如先将一张表的两个不同的分区找出来做处理,或者用条件判断做处理等等。比如一张表:table_name中字段id,time和分区type=liist_1/list_2如果先将两张表中的分区找出来做join:select table_a.id,table_a.tim...

2018-10-17 11:22:59 2044

原创 数据预处理笔记

1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。 2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。 填补缺失值的方法: 1)忽略元祖(缺少类标号的时候通常可以这样做); 2)人工填写缺失值(费时费力); 3)使用一个全局常量填充缺失值(方法简单但可靠性差); 4)使用属性的中心度量填充缺失值(使用均值或者中位数填充); 5)使用与给定元祖属

2016-08-31 10:56:09 561

原创 标签传播(LPA)算法及python基于igraph包的实现

LPA标签传播算法是由Usha Nandini Raghavan等人在2007年提出的。是一种半监督聚类算法;它在聚类算法中的特点是聚类速度快,但聚类结果随机。 其算法的过程如下:(http://img.blog.csdn.net/20160708150803354)其过程比较简单:1.为所有节点指定一个唯一的标签;2.逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节

2016-07-08 15:06:19 11625 7

标签传播LPA

最初始的标签传播算法论文发表

2016-06-06

利用python进行数据分析

对于初学者来说是很有帮助的

2016-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除