自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 资源 (2)
  • 问答 (11)
  • 收藏
  • 关注

原创 mac安装docker hub及使用

Getting Started 项目是一个简单的Github仓库,他包含了你创建镜像的所有东西,并且可以把他当容器运行。基于你前一步建立的镜像启动一个容器。运行容器,容器上发布着带有你私有资源的应用,容器可以和你的物理机安全的隔绝。step2: docker镜像是你容器的私人文件系统,他提供了你容器所需的所有代码和文件。把你的镜像在docker hub上保存和分享,可以是其他人便捷在任何终端下载和运行。去官网 下载 Docker.dmg 并安装。2. docker hub的使用。

2023-03-01 15:58:54 632 2

原创 pyspark踩坑记录

经过一系列操作后 df4 = df3.join(df) # join出来会是空置,因为是两条DAG合并,df3是一条DAG,执行了limit , df是一条DAG,也执行了limit,两次limit的可能是从不同的分区各拿的1000条数据,因此join不上,join为空。1. df = hc.sql(..... limit 1000) # limit 具有随机性。然后df2 = df.xxx df3 = df2.xxx。

2023-03-01 10:49:58 304 3

转载 【模型部署】TF Serving的使用

【模型部署】TF Serving的使用

2023-02-28 20:08:02 268

原创 pyspark udf returnType=ArrayType中是不同数据类型

pyspark udf returnType=ArrayType中是不同数据类型然后id_list collect_list之后还能按照第一个位置的元素进行排序。

2023-02-22 16:16:21 553 2

原创 今日spark服务器端执行报错经验总结

一样的代码,服务器端的处理逻辑是,读hive表,经过一些逻辑处理,然后存到hive表中,应该是数据出问题了,查看源头hive表,发现列存在错乱情况,终于排查到错误所在,是数据的问题,不是写的代码的逻辑的问题。首先做了本地运行工程的排错,也做了print输出排错, (本地工程的流程就是 读本地csv文件,然后一些处理逻辑,然后输出保存到本地文件), 没什么错误。题目起的不好,这篇类似于日记一样,记录一下排错过程吧~~spark报错信息体现的就是函数的入参在函数内部错乱,

2022-12-30 16:52:28 227

原创 正则表达式教程

带有语法高亮的、支持PHP / PCRE 和 JS 语言、 上下文解释、 备忘单、参考 和 正则表达式社区的正则表达式测试工具。RegExr: 学习、构建 和 测试 正则表达式 Test RegEx。练习网站,很有意思叫编程胶囊。

2022-12-14 22:04:05 332

原创 wget jdk下载

wget jdk下载 访问这个网址 : https://repo.huaweicloud.com/java/jdk/

2022-12-08 16:41:03 549

原创 pyspark 根据字典添加多列

一 踩坑记录,这种参考pyspark Spark从字符串中提取值并分配为列 - 糯米PHP 行不通 出来的都是空值 二 可行办法一的代码 结合 https://www.5axxw.com/questions/content/l8m75h age_new是str(dict)的形式 即"{'frist' : 21, 'second' : 22}" jupyter 代码放在网盘里了:链接: https://pan.baidu.com/s/1OgVraHO76b8xWhAF7mARbg?pwd=hmj7 提

2022-12-06 17:21:10 425

原创 pyspark.sql.types.MapType()的使用

pyspark.sql.types.MapType()的使用

2022-12-06 10:01:44 419

原创 PySparkSql定义udf 返回类型为字典类型的

PySparkSql定义udf 返回类型为字典类型的

2022-12-05 21:41:51 707 2

原创 PySparkSql定义udf 返回类型为ArrayType

PySparkSql定义udf 返回类型为ArrayType

2022-12-05 21:25:45 1027

原创 pyspark.sql 的dataframe 添加多列 / df.withColumns()用法

pyspark.sql 的dataframe 添加多列 / df.withColumns()用法

2022-12-05 16:44:31 1457

原创 TypeError: Invalid returnType: returnType should be DataType or str but is <‘pyspark.sql.types.Integ

@F.udf(returnType=IntegerType)错了应该是@F.udf(returnType=IntegerType())

2022-12-05 15:17:37 455

原创 df真值替换 / df label替换 / df.loc赋值/两列赋值

踩坑记录: loc到某行某列.values 是列表。

2022-11-25 15:03:44 373

原创 df 取某两列值不一致的行

df 取某两列值不一致的行必须保证 作比较的这两列的数据类型一样 也就是label 和 groundtruth的数据类型要一样, 不一样的话 df_external[df_external['label']!= df_external['groundtruth']] 就会不起作用!这是我踩得一个坑,记录一下~~~例如我要取df_external的df_external['label']!= df_external['groundtruth'] 的行。

2022-11-24 17:42:02 323

原创 lgbm查看特征重要性

lgbm查看特征重要性

2022-11-14 17:40:42 1207

原创 python dataframe 字符串 转换为 字典

python dataframe 字符串 转换为 字典 eval() 可以把参数当做表达式执行。

2022-10-27 21:54:49 746

转载 深度学习之BatchNorm(批量标准化)

对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。那么这又意味着什么?,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。

2022-09-25 20:58:36 1446

原创 【无标题】

因为采用keras的函数式编程方式 在model.summary的时候,由于batchsize未知,所以会出现batchsize为None,batchsize不是一个确定的值所以会报错,在训练的时候给数据了之后batchsize才已知,就不会报错了。关键出错代码是第一个tf.reshape那里。...

2022-08-17 13:49:42 258

原创 keras在batch_size前添加维度

keras在batch_size前添加维度因为普通的keras.layer.Permute() 默认是保持第0维(batch_size那维)的,再怎么permute都是第一维到最后一维的shape变换,根本不能在第0维前添加一维。(保持第0维的意思是第0维不参与,给隐藏了)...

2022-08-17 13:41:19 808

原创 keras 画 网络结构图

keras画网络结构图

2022-08-16 15:19:07 676

原创 排序算法(快排、冒泡)

排序算法

2022-08-06 14:14:15 51

转载 keras 自定义padding tf.keras.layers.ZeroPadding2D

keras自定义padding

2022-07-29 14:51:09 953

原创 pytorch源码实现组卷积和空洞卷积(原理)

pytorch源码实现组卷积和空洞卷积(原理)

2022-07-27 16:40:26 665

原创 tensorflow改写torch的AdaptiveAvgPool2d

通过对比pytorch的tensor和tensorflow的tensor可以验证改写成功,只不过精度有点区别。

2022-07-19 11:33:54 944

转载 tf.keras padding=“same“ or “valid“问题

tf.keras padding="same" or "valid"问题

2022-07-13 14:03:14 211

原创 failed to launch: nice -n 0 /home/hadoop/Apps/spark/bin/spark-class org.apache.spark.deploy.master.M

[root@mamin sbin]# ./start-all.shstarting org.apache.spark.deploy.master.Master, logging to /home/hadoop/Apps/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-mamin.outfailed to launch: nice -n 0 /home/hadoop/Apps/spark/bin/spark-class org.a

2022-05-16 11:14:01 1475

原创 并行化节约内存 (Fail-safe, parallel memory reduction)

并行化节约内存参考此链接"""reducing.pyAuthor: Kirgsn, 2018Use like this:>>> import reducing>>> df = reducing.Reducer().reduce(df)"""import numpy as npimport pandas as pdimport timeimport gcfrom joblib import Parallel, delayedfrom fastpr

2022-04-11 10:25:38 128

原创 黑马(9)baseline交替最小二乘优化

交替最小二乘法优化原理推导损失函数J(θ)=∑u,i∈R(rui−μ−bu−bi)2+λ∗(∑ubu2+∑ibi2)J(\theta)=\sum_{u,i\in R}(r_{ui}-\mu-b_u-b_i)^2+\lambda*(\sum_u b_u{^2}+\sum_i b_i{^2} )J(θ)=u,i∈R∑​(rui​−μ−bu​−bi​)2+λ∗(u∑​bu​2+i∑​bi​2)对损失函数求偏导∂J(θ)∂bu=−2∑u,i∈R(rui−μ−bu−bi)+2λ∗bu\frac{\pa

2022-03-16 14:34:04 2180 1

原创 黑马(7) 冷启动 & 基于内容的推荐

推荐系统冷启动概念用户冷启动:如何为新用户做个性化推荐 物品冷启动:如何将新物品推荐给用户(协同过滤) 系统冷启动:用户冷启动+物品冷启动 本质是推荐系统依赖历史数据,没有历史数据无法预测用户偏好 用户冷启动1.收集用户特征用户注册信息: 性别、年龄、地域. 设备信息: 定位、手机型号、app列表 社交信息、推广素材、安装来源总结用户冷启动:尽可能收集用户信息,构建用户画像(打标签), 根据用户的标签可以做人群聚类用已有用户的行为做推荐,更多的使用流行度(热榜)做推荐...

2022-03-07 10:32:31 913

原创 黑马(6) 推荐系统评估

实现用户,服务提供方,内容提供方的共赢 显示反馈和隐式反馈 显示反馈 隐式反馈 例子 电影/书籍评分 是否喜欢这个推荐 播放、点击、评论、下载、购买 准确性 高 低 数量 少 多 获取成本 高 低 常用评估指标·准确性·信任度·满意度·实时性·覆盖率·鲁棒性·多样性·可扩展性·新颖性·...

2022-03-06 21:21:25 163

原创 黑马推荐系统项目实战【四】CF的评分预测

User-based CF评分预测Item-based CF的评分预测下面是模拟的小案例(分别采用上面的公式)import pandas as pdusers = ["User1","User2","User3","User4","User5"]items =["Item A","Item B","Item C","Item D","Item E"]# 用户评分矩阵dataset = [ [5,3,4,4,None], [3,1,2,3,3], .

2022-02-28 10:54:32 347

原创 黑马推荐系统项目实战【三】基于用户的协同过滤 UserCF

用户物品相似度计算users = ["User1","User2","User3","User4","User5"]items =["Item A","Item B","Item C","Item D","Item E"]#用户购买记录数据datasets = [ [1, 0, 1, 1, 0], [1, 0, 0, 1, 1], [1, 0, 1, 0, 0], [0, 1, 0, 1, 1], [1, 1, 1, 0, 1],]import pand

2022-02-27 23:03:42 587

原创 黑马推荐系统项目实战【二】 相似度计算

相似度计算余弦相似度、皮尔逊相关系数— 皮尔逊会对向量的每个分量做中心化— 余弦相似度只考虑向量的夹角不考虑长度— 适合评分是连续的数值杰卡德相似度— 交集/并集— 适合评分是 0, 1 布尔值的所以计算用户相似度是是: user_similar = 1 - pairwise_distances(df.values, metric=‘jaccard’)

2022-02-27 23:02:08 385

原创 【推荐系统】NeuralCF的理解

GMF模型公式的理解与缺点NCF还保留着MF的缺点,采用内积的方式计算评分使得预测不准确,模型的表达能力不足(内积的方式过于简单)NCF中的广义矩阵分解GMF部分采用将user和item的embedding先进行元素积,再输入线性层的方式计算分数,本质和MF的内积计算分数差不多,只是在MF的内积的各个元素上赋予了权值而已(推导见下图)。当这些权值为1的时候GMF就退化为MF(在不考虑激活函数的情况下)。NCF(混合)模型:GMF内积之后的结果和MLP部分的结果拼接送入预测层GMF和.

2022-02-16 09:45:40 585

原创 java基础--Executors工具类创建线程池对象

Executors使用可能存在的陷阱不能抗住大量任务 因为它没有限制任务队列的长度 会耗尽系统资源 造成内存溢出 它也没有限制任务队列的长度 任务增多线程跟着增多, 线程和任务上都存在风险 线程不受控制 任务也不受控制 也没有限制任务队列的长度...

2021-11-24 19:26:24 207

原创 创建文件前判断文件存在与否

import os.path as ospimport pickle save_file = osp.join(self.data_root, "ch7_cached.pkl")if osp.exists(save_file) and not rebuild: print("Using Cached file: {}".format(save_file)) self._data = pickle.load(open(save_file, "rb"))els.

2021-08-23 23:48:44 182

原创 怎么找论文里的相同字体的字母

Edit-->插入符号弹出下面的对话框,选择查看描述 新的搜索 输入小写拉丁字母 z对比着找找看能不能找到相似的或者一样的

2021-08-05 00:29:53 229

原创 拼接tensor code [torch.cat(sele_nei, dim=0)]

import torchsele_nei = []a = torch.tensor([2, 3, 6, 0, 1])[np.newaxis]b = torch.tensor([4, 3, 6, 0, 1])[np.newaxis]c = torch.tensor([2, 3, 4, 0, 1])[np.newaxis]print("a: ", a)sele_nei.append(a)sele_nei.append(b)sele_nei.append(c)print("sele_nei: .

2021-08-04 23:13:32 133

原创 使用Movielens-20m创建DGL异质图

数据:codedef add_MG(): """ 根据MovieID_genreID.csv创建MG边 """ # 当加载csv文件的多列数据时可以使用unpack将加载的数据列进场解耦到不同数组中 filename = "data/Movielens-20m/MovieID_genreID.csv" movies, genres = np.loadtxt(filename, delimiter=",", skiprows=1, usecols=(0, 1),

2021-07-13 17:44:05 518

pyspark字典变成列代码示例

pyspark字典变成列代码示例

2022-12-06

3个csv文件.zip

https://blog.csdn.net/qq_39321513/article/details/118705219 我这篇博客里用到的 是我对movielens-20m数据集经过处理后的

2021-07-13

trec06c.zip

垃圾分类数据集 我的课程作业用到的一个数据集 相应的博客:【垃圾邮件分类(trec06c数据集)】https://blog.csdn.net/qq_39321513/article/details/112021355#comments_17424986

2021-07-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除