静静_jingjing-CSDN博客

原创 mac安装docker hub及使用

Getting Started 项目是一个简单的Github仓库，他包含了你创建镜像的所有东西，并且可以把他当容器运行。基于你前一步建立的镜像启动一个容器。运行容器，容器上发布着带有你私有资源的应用，容器可以和你的物理机安全的隔绝。step2: docker镜像是你容器的私人文件系统，他提供了你容器所需的所有代码和文件。把你的镜像在docker hub上保存和分享，可以是其他人便捷在任何终端下载和运行。去官网下载 Docker.dmg 并安装。2. docker hub的使用。

2023-03-01 15:58:54 798 1

原创 pyspark踩坑记录

经过一系列操作后 df4 = df3.join(df) # join出来会是空置，因为是两条DAG合并，df3是一条DAG，执行了limit , df是一条DAG，也执行了limit，两次limit的可能是从不同的分区各拿的1000条数据，因此join不上，join为空。1. df = hc.sql(..... limit 1000) # limit 具有随机性。然后df2 = df.xxx df3 = df2.xxx。

2023-03-01 10:49:58 381 3

转载【模型部署】TF Serving的使用

【模型部署】TF Serving的使用

2023-02-28 20:08:02 309

原创 pyspark udf returnType=ArrayType中是不同数据类型

pyspark udf returnType=ArrayType中是不同数据类型然后id_list collect_list之后还能按照第一个位置的元素进行排序。

2023-02-22 16:16:21 685 2

原创今日spark服务器端执行报错经验总结

一样的代码，服务器端的处理逻辑是，读hive表，经过一些逻辑处理，然后存到hive表中，应该是数据出问题了，查看源头hive表，发现列存在错乱情况，终于排查到错误所在，是数据的问题，不是写的代码的逻辑的问题。首先做了本地运行工程的排错，也做了print输出排错, （本地工程的流程就是读本地csv文件，然后一些处理逻辑，然后输出保存到本地文件），没什么错误。题目起的不好，这篇类似于日记一样，记录一下排错过程吧~~spark报错信息体现的就是函数的入参在函数内部错乱，

2022-12-30 16:52:28 281

原创正则表达式教程

带有语法高亮的、支持PHP / PCRE 和 JS 语言、上下文解释、备忘单、参考和正则表达式社区的正则表达式测试工具。RegExr: 学习、构建和测试正则表达式 Test RegEx。练习网站，很有意思叫编程胶囊。

2022-12-14 22:04:05 364

原创 wget jdk下载

wget jdk下载访问这个网址： https://repo.huaweicloud.com/java/jdk/

2022-12-08 16:41:03 621

原创 pyspark 根据字典添加多列

一踩坑记录，这种参考pyspark Spark从字符串中提取值并分配为列 - 糯米PHP 行不通出来的都是空值二可行办法一的代码结合 https://www.5axxw.com/questions/content/l8m75h age_new是str(dict)的形式即"{'frist' : 21, 'second' : 22}" jupyter 代码放在网盘里了：链接: https://pan.baidu.com/s/1OgVraHO76b8xWhAF7mARbg?pwd=hmj7 提

2022-12-06 17:21:10 509

原创 pyspark.sql.types.MapType()的使用

pyspark.sql.types.MapType()的使用

2022-12-06 10:01:44 493

原创 PySparkSql定义udf 返回类型为字典类型的

PySparkSql定义udf 返回类型为字典类型的

2022-12-05 21:41:51 810 2

原创 PySparkSql定义udf 返回类型为ArrayType

PySparkSql定义udf 返回类型为ArrayType

2022-12-05 21:25:45 1150

原创 pyspark.sql 的dataframe 添加多列 / df.withColumns()用法

pyspark.sql 的dataframe 添加多列 / df.withColumns()用法

2022-12-05 16:44:31 1638

原创 TypeError: Invalid returnType: returnType should be DataType or str but is ＜‘pyspark.sql.types.Integ

@F.udf(returnType=IntegerType)错了应该是@F.udf(returnType=IntegerType())

2022-12-05 15:17:37 530

原创 df真值替换 / df label替换 / df.loc赋值/两列赋值

踩坑记录： loc到某行某列.values 是列表。

2022-11-25 15:03:44 415

原创 df 取某两列值不一致的行

df 取某两列值不一致的行必须保证作比较的这两列的数据类型一样也就是label 和 groundtruth的数据类型要一样，不一样的话 df_external[df_external['label']!= df_external['groundtruth']] 就会不起作用！这是我踩得一个坑，记录一下~~~例如我要取df_external的df_external['label']!= df_external['groundtruth'] 的行。

2022-11-24 17:42:02 444

原创 lgbm查看特征重要性

lgbm查看特征重要性

2022-11-14 17:40:42 1382

原创 python dataframe 字符串转换为字典

python dataframe 字符串转换为字典 eval() 可以把参数当做表达式执行。

2022-10-27 21:54:49 826

转载深度学习之BatchNorm（批量标准化）

对于深度学习这种包含很多隐层的网络结构，在训练过程中，因为各层参数不停在变化，所以每个隐层都会面临covariate shift的问题，也就是在训练过程中，隐层的输入分布老是变来变去，这就是所谓的“Internal Covariate Shift”，Internal指的是深层网络的隐层，是发生在网络内部的事情，而不是covariate shift问题只发生在输入层。那么这又意味着什么？，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。

2022-09-25 20:58:36 1538

原创【无标题】

因为采用keras的函数式编程方式在model.summary的时候，由于batchsize未知，所以会出现batchsize为None，batchsize不是一个确定的值所以会报错，在训练的时候给数据了之后batchsize才已知，就不会报错了。关键出错代码是第一个tf.reshape那里。...

2022-08-17 13:49:42 305

原创 keras在batch_size前添加维度

keras在batch_size前添加维度因为普通的keras.layer.Permute() 默认是保持第0维（batch_size那维）的，再怎么permute都是第一维到最后一维的shape变换，根本不能在第0维前添加一维。（保持第0维的意思是第0维不参与，给隐藏了）...

2022-08-17 13:41:19 878

原创 keras 画网络结构图

keras画网络结构图

2022-08-16 15:19:07 738

原创排序算法（快排、冒泡）

排序算法

2022-08-06 14:14:15 76

转载 keras 自定义padding tf.keras.layers.ZeroPadding2D

keras自定义padding

2022-07-29 14:51:09 1043

原创 pytorch源码实现组卷积和空洞卷积（原理）

pytorch源码实现组卷积和空洞卷积（原理）

2022-07-27 16:40:26 748

原创 tensorflow改写torch的AdaptiveAvgPool2d

通过对比pytorch的tensor和tensorflow的tensor可以验证改写成功，只不过精度有点区别。

2022-07-19 11:33:54 1032

转载 tf.keras padding=“same“ or “valid“问题

tf.keras padding="same" or "valid"问题

2022-07-13 14:03:14 250

原创 failed to launch: nice -n 0 /home/hadoop/Apps/spark/bin/spark-class org.apache.spark.deploy.master.M

[root@mamin sbin]# ./start-all.shstarting org.apache.spark.deploy.master.Master, logging to /home/hadoop/Apps/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-mamin.outfailed to launch: nice -n 0 /home/hadoop/Apps/spark/bin/spark-class org.a

2022-05-16 11:14:01 1622

原创并行化节约内存 (Fail-safe, parallel memory reduction)

并行化节约内存参考此链接"""reducing.pyAuthor: Kirgsn, 2018Use like this:>>> import reducing>>> df = reducing.Reducer().reduce(df)"""import numpy as npimport pandas as pdimport timeimport gcfrom joblib import Parallel, delayedfrom fastpr

2022-04-11 10:25:38 157

原创黑马（9）baseline交替最小二乘优化

交替最小二乘法优化原理推导损失函数J(θ)=∑u,i∈R(rui−μ−bu−bi)2+λ∗(∑ubu2+∑ibi2)J(\theta)=\sum_{u,i\in R}(r_{ui}-\mu-b_u-b_i)^2+\lambda*(\sum_u b_u{^2}+\sum_i b_i{^2} )J(θ)=u,i∈R∑(rui−μ−bu−bi)2+λ∗(u∑bu2+i∑bi2)对损失函数求偏导∂J(θ)∂bu=−2∑u,i∈R(rui−μ−bu−bi)+2λ∗bu\frac{\pa

2022-03-16 14:34:04 2215 1

原创黑马(7) 冷启动 & 基于内容的推荐

推荐系统冷启动概念用户冷启动：如何为新用户做个性化推荐物品冷启动：如何将新物品推荐给用户(协同过滤) 系统冷启动：用户冷启动+物品冷启动本质是推荐系统依赖历史数据，没有历史数据无法预测用户偏好用户冷启动1.收集用户特征用户注册信息: 性别、年龄、地域. 设备信息: 定位、手机型号、app列表社交信息、推广素材、安装来源总结用户冷启动：尽可能收集用户信息，构建用户画像(打标签)，根据用户的标签可以做人群聚类用已有用户的行为做推荐，更多的使用流行度（热榜）做推荐...

2022-03-07 10:32:31 999

原创黑马(6) 推荐系统评估

实现用户，服务提供方，内容提供方的共赢显示反馈和隐式反馈显示反馈隐式反馈例子电影/书籍评分是否喜欢这个推荐播放、点击、评论、下载、购买准确性高低数量少多获取成本高低常用评估指标·准确性·信任度·满意度·实时性·覆盖率·鲁棒性·多样性·可扩展性·新颖性·...

2022-03-06 21:21:25 207

原创黑马推荐系统项目实战【四】CF的评分预测

User-based CF评分预测Item-based CF的评分预测下面是模拟的小案例（分别采用上面的公式）import pandas as pdusers = ["User1","User2","User3","User4","User5"]items =["Item A","Item B","Item C","Item D","Item E"]# 用户评分矩阵dataset = [ [5,3,4,4,None], [3,1,2,3,3], .

2022-02-28 10:54:32 396

原创黑马推荐系统项目实战【三】基于用户的协同过滤 UserCF

用户物品相似度计算users = ["User1","User2","User3","User4","User5"]items =["Item A","Item B","Item C","Item D","Item E"]#用户购买记录数据datasets = [ [1, 0, 1, 1, 0], [1, 0, 0, 1, 1], [1, 0, 1, 0, 0], [0, 1, 0, 1, 1], [1, 1, 1, 0, 1],]import pand

2022-02-27 23:03:42 653

原创黑马推荐系统项目实战【二】相似度计算

相似度计算余弦相似度、皮尔逊相关系数— 皮尔逊会对向量的每个分量做中心化— 余弦相似度只考虑向量的夹角不考虑长度— 适合评分是连续的数值杰卡德相似度— 交集/并集— 适合评分是 0， 1 布尔值的所以计算用户相似度是是： user_similar = 1 - pairwise_distances(df.values, metric=‘jaccard’)

2022-02-27 23:02:08 425

原创【推荐系统】NeuralCF的理解

GMF模型公式的理解与缺点NCF还保留着MF的缺点，采用内积的方式计算评分使得预测不准确，模型的表达能力不足（内积的方式过于简单）NCF中的广义矩阵分解GMF部分采用将user和item的embedding先进行元素积，再输入线性层的方式计算分数，本质和MF的内积计算分数差不多，只是在MF的内积的各个元素上赋予了权值而已（推导见下图）。当这些权值为1的时候GMF就退化为MF（在不考虑激活函数的情况下）。NCF(混合)模型：GMF内积之后的结果和MLP部分的结果拼接送入预测层GMF和.

2022-02-16 09:45:40 692

原创 java基础--Executors工具类创建线程池对象

Executors使用可能存在的陷阱不能抗住大量任务因为它没有限制任务队列的长度会耗尽系统资源造成内存溢出它也没有限制任务队列的长度任务增多线程跟着增多，线程和任务上都存在风险线程不受控制任务也不受控制也没有限制任务队列的长度...

2021-11-24 19:26:24 226

原创创建文件前判断文件存在与否

import os.path as ospimport pickle save_file = osp.join(self.data_root, "ch7_cached.pkl")if osp.exists(save_file) and not rebuild: print("Using Cached file: {}".format(save_file)) self._data = pickle.load(open(save_file, "rb"))els.

2021-08-23 23:48:44 228

原创怎么找论文里的相同字体的字母

Edit-->插入符号弹出下面的对话框，选择查看描述新的搜索输入小写拉丁字母 z对比着找找看能不能找到相似的或者一样的

2021-08-05 00:29:53 275

原创拼接tensor code [torch.cat(sele_nei, dim=0)]

import torchsele_nei = []a = torch.tensor([2, 3, 6, 0, 1])[np.newaxis]b = torch.tensor([4, 3, 6, 0, 1])[np.newaxis]c = torch.tensor([2, 3, 4, 0, 1])[np.newaxis]print("a: ", a)sele_nei.append(a)sele_nei.append(b)sele_nei.append(c)print("sele_nei: .

2021-08-04 23:13:32 156

原创使用Movielens-20m创建DGL异质图

数据：codedef add_MG(): """ 根据MovieID_genreID.csv创建MG边 """ # 当加载csv文件的多列数据时可以使用unpack将加载的数据列进场解耦到不同数组中 filename = "data/Movielens-20m/MovieID_genreID.csv" movies, genres = np.loadtxt(filename, delimiter=",", skiprows=1, usecols=(0, 1),

2021-07-13 17:44:05 573