飞奔的帅帅-CSDN博客

原创 spark3快速入门

spark简单介绍CachingSelf-C

2022-06-12 17:49:36 674

来源：The Functional APIShared layersAnother good use for the functional API are models that use shared layers. Shared layers are layer instances that are reused multiple times in the same model -- they learn features that correspond to multiple paths in

2022-02-23 18:07:38 651

原创 Array和ArrayList的差异

Difference between Array and ArrayListSimilaritiesArray and ArrayList both are used for storing elements. Array and ArrayList both can store null values. They can have duplicate values. They do not preserve the order of elements.The following table

2021-09-06 11:05:48 210

原创 map的用法-java

package dataStructure;import java.util.HashMap;import java.util.Iterator;import java.util.Map;public class learnMap { public static void main(String[] args){ Map<String, String> map = new HashMap<String, String>(); .

2021-08-15 17:02:22 198

原创 tf.keras.layers.Embedding实现共享embedding

使用feature_column可以非常方便的实现tf.feature_column.shared_embedding_columns(shared_column_list, iembedding_size)

2021-06-15 18:23:13 2598 2

原创 auc计算逻辑

实现auc，pytho实现auc，javapackage com.xueqiu.infra.xdc.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.metadata.HiveException;import java.util.Arrays;/** * * @author *//** * 计算单特征auc */public class RocAu

2021-06-04 15:50:35 368

原创 tuple需要注意的问题

创建t = tuple([1])输出: (1,)或者t = (1,2,3)注意注意(1,)的数据结构是tuple，但(1)却是int类型(1)和1是相等的坑(1,)的数据结构才是tuple，而(1)不是，这一点非常重要。因为有的api的参数要求是tuple，当只有一个参数时，写成(1)，就不对。最典型的就是python进程池的用法。from multiprocessing import Pooldef my_func(a): pass

2021-05-12 14:17:55 236

原创 tf.strings.split

tf.strings.splitlines = tf.strings.split(line, '\n')输入是list格式输出是一个SparseTensorValue对象SparseTensorValue(indices,values=array( ,dtype),dense_shape)拿结果lines.values

2021-05-11 10:41:00 1011

原创打印dataset

eager模式import tensorflow as tfimport tensorflow.contrib.eager as tfetfe.enable_eager_execution()# 读hdfs# file_base_path="hdfs:///****"# files = tf.io.gfile.glob(file_base_path)# 读本地文件files = [os.path.join(path, f) for f in os.listdir(path)]d

2021-05-10 20:02:05 726

原创 jupyter环境下用tensorflow读取hdfs数据

tensorflow读取hdfs数据设置classpath变量直接执行如下脚本test.pyimport tensorflow as tf file_path = "hdfs:///a/b/.csv"files = tf.io.gfile.glob(file_path)print(files)1、shell中这样运行CLASSPATH=$($HADOOP_HDFS_HOME/bin/hadoop classpath --glob) python test.py2、.bashr

2021-05-08 15:49:55 1370

原创 tf.keras.layers.BatchNormalization

tf.keras.layers.BatchNormalization批归一化批标准化tf.keras.layers.BatchNormalization( axis=-1, momentum=0.99, epsilon=0.001, center=True, scale=True, beta_initializer='zeros', gamma_initializer='ones', moving_mean_initializer='zeros', moving_

2021-04-23 21:25:30 1117

原创 Keras定义Layer和Model

自定义Layertf.keras.layers.Layer 是所有 Keras 层的基类，它继承自 tf.Module。定义call 您只需换出父项，然后将 __call__ 更改为 call 即可将模块转换为 Keras 层定义build 定义输入的shape.build 仅被调用一次，而且是使用输入形状时调用的。它通常用于创建变量（权重）import tensorflow as tfclass MyLayer(tf.keras.layers.Layer): ...

2021-04-11 16:31:58 2067

原创 tensorflow变量初始化

tensorflow变量初始化

2021-04-10 23:52:33 722

原创 linux过滤掉休息日(包括节假日)

linux过滤掉休息日过滤周六日过滤节假日过滤周六日，提取weekday=`date -d "$start_day" +%w`，过滤0和6由于节假日不具有规律，单独处理，一个一个去判断 elif [[ $start_day -eq '20210211' ]] || [[ $start_day -eq '20210212' ]] || [[ $start_day -eq '20210215' ]] || [[ $start_day -eq '20210216' ]] || [[ $sta

2021-04-03 12:27:18 668

原创 RecursionError: maximum recursion depth exceeded while calling a Python object

raceback (most recent call last): File "/usr/lib/python3.6/abc.py", line 184, in __instancecheck__ if subclass in cls._abc_cache:RecursionError: maximum recursion depth exceeded while calling a Python objectException ignored in: 'pandas._libs.lib.c...

2021-03-18 01:07:14 2051 1

原创 hive判断null的坑

hive sql判断空只能用 is null 或者 is not null=null!=nullin (null,)这三种都是不行的

2021-03-11 11:26:27 374

原创 @RequestMapping注解

@RequestMapping(path = "/user")@RequestMapping(path="/login",method=RequestMethod.GET)org.springframework.web.bind.annotation.RequestMethod来定义浏览器请求的方式。RequestMethod. GET POST PUT DELETE 注解的位置注解在方法上 @Controllerp...

2020-12-28 14:19:38 342

原创 git本地仓库和远程仓库的关联

git remote add origin git@github.com:runningshuai/SpringBoot_mybatis.git接着git push -u origin master遇到错误这是远程仓库和本地仓库不一致造成的接着git pull --rebase origin master然后git push origin master—rebase变基git pull –rebase origin m...

2020-12-28 14:17:38 361

原创 SpringBoot集成kafka

准备 kafkahttp://kafka.apache.org/downloads zookperhttps://downloads.apache.org/zookeeper/zookeeper-3.5.8/ Wgethttps://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.6.0/kafka_2.12-2.6.0.tgz安装zookeeper 解压 tar -zxvf apache-zookeeper-3....

2020-12-28 14:14:39 206

原创 Spring注解

作用在类上的注解 @Service：用于标注业务层的组件 @Controller: 用于标注控制层组件 @Component: 当不知道当前类属于哪类时(不属于@Controller、@Services等时)，就可以标注为@Component，用于标注泛指组件 @Repository：用于标注数据层组件作用在属性或方法上的注解 @Autowired @Resource ...

2020-12-28 14:09:59 94

原创 FM算法为什么适用于稀疏数据

FM的原理https://zhuanlan.zhihu.com/p/37963267原理FM的表达式，包含常数项，一阶项，二阶项正常情况下，只有当不为0的情况下，才能被训练到同样的，只有当都不为0的情况下，才能被训练到，再加上数据稀疏，不为0的情况非常少，所以就很难被训练到。解决办法是矩阵计算出来的值，不再是单纯一个值。是有下面矩阵计算出来的这也是矩阵分解的结果。最后经过一系列的化简然后求偏导为什么适用于稀疏在优化的时候有，同样的当为0的...

2020-12-24 20:09:39 947 2

原创 pd.read_csv问题

pd.read_csv()重要参数filepath_or_buffer 路径sep=',' 分隔符names=None，列名names = ["a", "b", "c"]na_values=None, 默认‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘<NA>’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘...

2020-11-06 21:17:02 393

原创 ValueError: You are trying to merge on object and int64 columns. If you wish to proceed you should u

直接说原因 merge的第二个参数是字符串类型，转化成int一探究竟object and int64 是有位置的，分别是第一个参数和第二个参数df1 = pd.DataFrame({"a":['13', "1", '1', '3'], "b":[1,1,1,1]})df2 = pd.DataFrame({"a":[1, 2, 3, 4]})pd.merge(df1, df2, on='a', how='inner')然后就报错 ValueError: You are tryi...

2020-11-06 20:49:52 28692

原创搜狗输入法取消英文空格确认

在使用搜狗输入法时，对于中文，按空格键确认，然后打印在屏幕上。但是对于英文，不想这样麻烦啊，只想输入一个字母，屏幕上显示一个字母。搜狗输入法的设置如下，就ok 了。详细解释，涉及到概念【英文输入法】和【英文状态切换】的区别英文输入法：是一种输入法，和中文类似，输入一个单词，然后按回车确认输入。英文状态切换: 切换到英文状态下,可以一个字母一个字母的输入。好像没有说清楚????‍♂️。。。总之，要想一个字母一个字母的输入，不需要空格或回车，就调整【2】的快捷键。特别实在Linu

2020-11-02 19:58:17 2209

原创 auc是怎么计算的？

1 roc曲线计算auc我们都知道auc是roc曲线下的面积，但这种计算不方便2 公式计算auc有另外一种计算方法：任意给一个正类样本和一个负类样本，正类样本的score大于负类样本的score的概率公式如下M 是正样本的个数，N是副样本的个数值得是第i个样本的序号。对所有的预测样本的score进行从小到大的排序，然后从1进行标号。原始样本模型打分 0.8 0.5 0.6 0.3 0.4.

2020-06-29 20:38:54 19138

原创 Adam优化器偏差矫正的理解

1、adam优化器公式包括动量项和过去梯度平方的指数衰减平均2、偏差校正后的,3、Adam的参数更新公式重点来了第二部偏差矫正的公式是怎么等到的？？？论文中的推导但是不知道是怎么变化来的，下面是我的理解第一次迭代初始化为0，则对上式左右求期望这里对vt展开了，直接套用期望的性质，那个没有搞懂。。。这样就推出来那个公式了...

2020-06-23 20:22:18 4812 4

原创 ERROR StatusLogger No log4j2 configuration file found.

工具是intellij idea在src -> main 下新建文件夹resources 在resources文件夹下新建 log4j2.xml文件log4j2.xml的文件内容如下<?xml version="1.0" encoding="UTF-8"?><Configuration> <Appenders> <Console name="STDOUT" target="SYSTEM_OUT">

2020-06-16 17:55:12 2493

原创 docker 安装redis

docker pull redis:3.2docker run -p 6379:6379 \-v /home/hadoop/myredis/data:/data \-v /home/hadoop/myredis/conf/redis.conf:/usr/local/etc/redis/redis.conf \-d redis:3.2 redis-server /usr/local/etc/redis/redis.conf \--appendonly yes--appe...

2020-06-15 10:40:14 146

原创 docker 数据卷

介绍是为了数据持久化，保存数据在docker卷 juan,四声卷就是目录或文件，存在于一个或多个容器中，由docker挂载到容器，但不属于联合文件系统（Union File System），可以提供一些用于持续持久化存储或共享数据的特性。它完全独立于容器的生存周期，docker不会在容器删除时，删除其挂载的数据卷。docker数据卷的特点：数据卷可在容器之间共享或重用数据卷中数据的更改可以直接生效数据卷中的更改不会包含在镜像的更新中数据卷的生.

2020-06-15 10:38:27 1428

原创 docker commit

docker commit是在本地生成镜像docker commit -a=' ' -m=' ' 容器id镜像名字:版本号

2020-06-15 10:34:57 211

原创 docker attach和docker exec

docker attach和docker exec先创建一个交互式容器可以进入执行交互操作：pwd，ls -l然后ctrl + p + q退出交互式docker ps可以看出是不停止退出现在不是退出了吗？又有点事，需要和容器交互，怎么重新进去呢？docker start是从停止的重启docker restart 从新启动容器，好像也可以，试一试虽然容器重启了，但并没有进行入交互式环境。这个时候docker attach就隆重登场了docker exe...

2020-06-15 10:31:21 1278

原创 docker 查看容器内部细节docker inspect

查看容器内部进程 docker top2d是容器的id, 我直接取id的前两个字符docker top 2d查看容器细节docker inspectjson格式存储的容器详细细节

2020-06-15 10:29:19 1045

原创 docker 查看容器日志

查看容器日志docker logs -f --tail容器id参数 -t显示的时候加入时间戳 -f跟随最新的日志（fellow） --tail数字显示最后多少条自己先生成一些日志docker logs容器id或者容器名字加时间戳docker logs -t -f si_xun_huan新产生的日志会马上打印出来docker logs -t -f --tail=5 si_xu...

2020-06-15 10:25:42 2008

原创 docker-启动守护式容器

启动容器的方式：交互式和非交互式/守护式启动交互式容器启动守护式容器：不需要交互，只要跑着执行就行了启动交互式容器docker run -it --name=interactive centos启动守护式容器docker run -d-d:以后台运行的方式运行容器，返回容器id，也就是启动守护式容器可以看出并没有进入交互式。若是进入交互式，用户变成root。一般情况下，进程进入后台，前面看不到，但能够查到进程在运行中。我运行了doc...

2020-06-13 02:15:28 1024

原创 docker 容器命令（一）

有镜像才能创建容器docker run参数说明docker run -it centos列出当前机器下的所有dockerdocker ps参数 -a列出当前所有正在运行 +历史上运行过的容器 -l显示最近创建的容器。l :latest -n最近n个创建的容器 -q静默模式，只显示容器编号。q: quiet --no-trunc不截断输出例如：docker ps -l列出最近创建...

2020-06-12 23:06:57 197

原创 docker 介绍、安装、阿里云加速

docker介绍Docker是一个Client-Server结构的系统，Docker守护进程运行在主机上，然后通过Socket连接从客户端访问，守护进程从客户端接收命令并管理运行在主机上的容器。Client:运行的终端窗口Server: docker一直运行着的服务镜像（image），就是一个只读的模板，可以用来创建Docker容器，可以创建很多容器。容器(container)，独立运行的一个或一组应用。容器是用镜像创建的实例。它可以被启动，开始，停止，删除。每个容器是相互隔离的，保证.

2020-06-12 20:11:25 236

原创 linux文件系统du、df命令

我用的是虚拟机ubuntu16.04常用命令df 查看文件系统，分区的占用情况dudu apps/ 所有子文件路径下文件大小du -h 人类可读的方式查看文件大小du -s 统计总的大小ls 也可以查看文件大小，但只是一级文件一些信息，不包括子文件大小。我apps的文件夹里装了hadoop，spark, hive，不可能只有4kb，所以只是一级文件的信息（文件名等）du 和df的区别du -sh 统计的比df -h统计的要小，主要原因为：fsck文

2020-06-11 16:29:59 498

转载 spark master的部署方式

我们在初始化SparkConf时，或者提交Spark任务时，都会有master参数需要设置，如下：conf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)/bin/spark-submit \ --cluster cluster_name \ --master yarn-cluster \ ...但是这个master到底是.

2020-06-11 13:45:13 1172

转载分布式机器学习之——Spark MLlib并行训练原理

这里是王喆的机器学习笔记的第二十五篇文章。接下来的几篇文章希望与大家一同讨论一下机器学习模型的分布式训练的问题。这个问题在推荐、广告、搜索领域尤为突出，因为在互联网场景下，动辄TB甚至PB级的数据量，几乎不可能利用单点完成机器学习模型的训练，分布式机器学习训练成为唯一的选择。在笔者看来，分布式机器学习训练有三个主要的方案，分别是Spark MLlib，Parameter Server和TensorFlow，倒不是说他们是唯三可供选择的平台，而是因为他们分别代表着三种主流的解决分布式训练方法。今天我们

2020-06-10 01:33:56 893 3

sklearn中文学习手册

kaggle 电影评论文本情感分析（Bag of Words Meets Bags of Popcorn）数据集

空空如也