日常记录
like_red
这个作者很懒,什么都没留下…
展开
-
python2中json编码的坑
在python中使用json会存在编码问题,需要引起注意。json.dumps(your_dict)json.dumps默认按utf-8来对放入的字符串进行解码后输出。因此需要注意进行dump的字符串编码格式需要确定。json.loads(your_str)json在python中直接使用json.loads(your_str)的方式,不管your_str是什么编码,都会被转换成unicode的格式。因此想要得到结果,需要自行转换一下。转换代码:def unicode_conver原创 2021-06-01 21:02:18 · 481 阅读 · 0 评论 -
estimator保存pb文件检查输出
saved_model_cli show \--dir . \--tag_set serve \--signature_def serving_default原创 2021-02-05 17:03:08 · 394 阅读 · 0 评论 -
各种分类问题的损失函数
在tf.nn下带有“cross_entropy”的损失函数,入参logits都是没有sigmoid或softmax之前的数据,函数会自动来计算。输出是每个样本的loss,一般需要配合tf.reduce_mean(loss)使用。1 输入的labels是需要one-hot之后的tensor的函数。1.1 sigmoid_cross_entropy_with_logitstf.nn.sigmoid_cross_entropy_with_logits(_sentinel=None,labels=No原创 2021-02-05 17:01:48 · 956 阅读 · 0 评论 -
做实验过程中的流水账
显存问题unable to create StreamExecutor for CUDA:0: failed initializing StreamExecutor for CUDA device ordinal 0: Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_OUT_OF_MEMORY: out of memory; total memory reported: 34058272768这个问题是显存占用过多,就算是已经原创 2021-02-05 16:53:20 · 383 阅读 · 0 评论 -
关于tf中取embedding的小记录
众所周知,tf对tensor的shape的要求非常严格,但是经常在使用embedding layer之后就忘记了输出的tensor的shape是什么样子的了,每次都会再去百度一下,所以专门记录一下。embedding_lookupembedding_lookup是直接进行查询,不会进行combiner的。例如:idx = [batch_size, 1] 得到的结果将是 [batch_size, 1, embedding_size];idx = [batch_size, seq_len] 得到的结果原创 2020-10-02 14:31:56 · 380 阅读 · 0 评论 -
Linux上打开python shell显示中文
当代码中有中文出现时,直接用python shell会报错——ascii codec can‘t decode byte解决方法:启动shell的时候在前面加上:PYTHONIOENCODING=utf-8 python(如果不是开shell,而是直接运行python XXX.py的话,需要在py文件前面加上# -- encoding=utf-8 --)...原创 2020-10-02 14:25:53 · 579 阅读 · 0 评论 -
normalization思考
batch normalization与layer normalizationbatch normalization是对列进行归一化,在每个特征上进行缩放,为了解决量纲不同的问题(蕴含了大数定律的思想,当样本量足够的时候,样本分布和总体分布一致);layer normalizaiton是对行进行标准化,使得每行的模为1【思考】:1)对于类似于NLP的词向量这种,应该使用LN,因为一个词...原创 2020-02-24 11:33:03 · 171 阅读 · 0 评论 -
Batch Normalization和激活函数的使用顺序
问题:如题结论:先用Batch Normalization 再用激活函数例子:net = tf.layers.dense(input, units=unit, activation=None, kernel_initializer=tf.truncated_normal_initializer())net = tf.nn.relu(tf.layers.batch_normalization...原创 2020-02-08 17:00:36 · 3259 阅读 · 0 评论 -
spark中monotonically_increasing_id的坑
日常工作中因为获取到的交互矩阵中user是string的,所以需要转换成long或int的unique id。本来以为发现了一个非常好用的函数monotonically_increasing_id,再join回来就行了,直接可以实现为:import org.apache.spark.sql.functions.monotonically_increasing_id userdf = df.s...原创 2019-12-07 11:34:24 · 7298 阅读 · 5 评论 -
spark中数据在python中的使用
这里写自定义目录标题合并文件乱码问题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导...原创 2019-11-20 18:39:53 · 936 阅读 · 0 评论 -
spark分布式的相关学习笔记
driver完成所有任务的调度和executor与cluster之间的协调。分为client和cluster模式。client模式是指driver在任务提交的机器上运行,cluster模式是指随机选择一台机器执行。job是指脚本中的action,一个action对应了一个job(transformation不会对应一个job)stage组成action/job。一个job可以对应了多个sta...原创 2019-09-17 10:54:42 · 124 阅读 · 0 评论 -
小白实习的gitlab使用笔记
创建新项目1、在gitlab上创建项目右上角有一个 new project2、填写常规消息按照你的项目名等等完成这些基础信息的填写3、完成本地和远程仓库的链接、上传等等这是创建新的项目成功之后网页上的一些提示的操作。我会忽略掉其中创建README的这一步。我一般执行的操作如下:(1)在本地项目根目录下右键打开“git bash here”(2)依次输入:git confi...原创 2019-06-05 11:31:01 · 363 阅读 · 0 评论 -
使用3to2将python3的脚本转换成python2的脚本
1、pip install 3to2;2、找到文件“3to2”,这个时候是没有后缀的。我的是在“XXX\anaconda\Scripts”下面;3、定位到自己的"3to2"文件,然后这个文件所在的路径下打开cmd;4、键入python 3to2 -w [你的文件地址]...原创 2019-05-21 17:41:29 · 7400 阅读 · 1 评论 -
《Real-time Personalization using Embeddings for Search Ranking at Airbnb》学习笔记
2018年KDD的best paper读书笔记写在开篇的唠唠叨叨背景介绍场景论文内容listing embedding基于当前点击的房源挖掘用户短期兴趣偏好user-type & listing-type embeddingembedding的应用疑惑新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格...原创 2019-03-19 10:51:02 · 2836 阅读 · 2 评论 -
疑问:数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后?
问:如题。找到的相关解答:应该数据集划分后,不然测试集里面实际上是包含了训练集的信息的,这会影响模型的测试效果。但其实当样本量足够大的时候,随机划分的训练集和测试集其实是有相同的分布的,所以理论上是可以忽略上面说到的东西的。...原创 2019-03-25 17:20:50 · 4532 阅读 · 0 评论 -
hive语句中的日常笔记
1、列转行需要解决的场景:某一列变量类型为字符串,现在需要将这这一列字符串的内容进行操作,并且将操作之后的结果生成新的列SELECT newcon_nameFROM table_nameLATERAL VIEW EXPLODE(对列的操作,比如SPLIT(col_name,',')) newtable as newcon_name explode函数实现将list的值展开,获取到每个元...原创 2019-01-23 16:12:09 · 351 阅读 · 0 评论 -
不懂JAVA,但是要用spark执行任务的小白踩过的坑
不懂JAVA,但是要用spark执行任务的小白踩过的坑你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。driver节点内存不足Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00...原创 2018-10-26 15:34:21 · 617 阅读 · 0 评论 -
Hive中遇到的问题记录
collection本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ct...原创 2018-07-23 22:55:47 · 6068 阅读 · 0 评论