自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

u013215956的博客

原创 GBDT + 贝叶斯 = 分类任务

我要开始搞事情了，最近接到一个分类任务。数据量比较小，特征也比较少，GBDT适用于数值型特征做分类，贝叶斯适用于类别型特征，所以，我要把数值型特征扔到GBDT里面分个类别，再把GBDT输出类别和其他类别型特征一起扔到贝叶斯里面。首先把数据处理成libsvm的格式，libsvm格式如下：label feature_id:feature_value feature_id:feature_value feature_id:feature_value …昨晚睡觉前，我在想，这一生这么长，七八十年，能否有其中的

2020-05-15 17:34:41 425

原创 spark的真正用途

发现spark并不是用来处理数据的，它是一门玄学。比如明明最后生成的文件中有那一条，但是中间想单个filter出来，有时候会提示没有那条样本。得靠运气。...

2020-05-08 17:08:24 1035

原创 ps and deeplearning

”知识是互通的“，这是一次旅行中，一个长者对我说的话。这句话在以后的生活中，我的感受越来越明显。疫情期间，在家呆着没事做，于是开始去哔哩哔哩学习ps，学到了ps中各种工具的基本用法。今天在家看李宏毅老师的视频，讲卷积神经网络的时候，讲到了对图片的处理，适当降低图片像素并不会改变图像本身的内容，而且可以减少模型参数，他说，”这个操作可以利用maxpooling完成“。这句话让我觉得maxpooli...

2020-02-20 15:39:11 188

原创优化算法——FTRL

ctr预测中，单个样本由向量x表示，w是模型参数，预测样本x被点击的概率p=sigmoid(w * x)，sigmoid(x) = 1/(1+exp(x))。样本label为{0, 1}表示是否被点击。模型损失函数为交叉熵损失：L = -ylog§ - (1-y)log(1-p)，梯度g为损失函数对w求偏导：ftrl更新参数的公式为：这个表示梯度，就是损失函数对参数求偏导。t表示第t...

2020-02-16 22:41:32 415

原创贝叶斯分类器

贝叶斯分类器问题描述有一堆宝可梦x1，x2, …, xn,，已知的数据是每只宝可梦的各种属性，例如生命值，攻击力等，假设每只宝可梦有m个属性，第一只宝可梦就可以用向量：（x11, x12, …, x1m）表示，问题是预测每只宝可梦的种类，种类用C1, C2表示，例如水火冰等等。贝叶斯公式我们利用贝叶斯公式，给定宝可梦x，输出x属于各类的概率。公式里是假设只有两个类别C1, C2，如果有n...

2020-02-09 18:56:57 266

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hado...

2019-09-03 16:00:10 701 1

原创修复sqlite数据库

可以尝试通过简单的导出导入方式对损坏的库文件作回复。首先导出数据sqlite3 my.sqlite3sqlite>.output tmp.sqlsqlite>.dumpsqlite>.quit再倒入到一个新库中sqlite3 mynew.sqlite3sqlite>.read tmp.sqlsqlite>.quit这时新建的mynew.sqlite...

2019-05-20 15:02:33 179

原创平滑项

问题是这样的，今天想为点击模型增加coec特征，这就是coec的公式，分子是某个item某段时间内所有的点击次数，分母是该item在列表中不同位置的展现次数*该位置ctr的累加，ctr是之前数据统计出来的结果，不知道说明白了没有，大概就是这个意思吧，coec的本意是点击数超过预期点击数（click over expect click），分子是实际点击数，分母就是预期点击数。加进点击模型里面发现...

2019-04-30 13:50:10 1108

原创 AUC:ROC曲线面积

ROC曲线：什么真阳率，假阳率的那么难理解。我的理解：ROC曲线横坐标是，所有负样本中预测为正样本的比例；纵坐标是所有正样本中预测为正的比例。例如有样本label序列：1 0 1 1 0 0 1预测的样本label序列：1 0 0 1 0 1 0横坐标：1/3（3是负样本总数，1表示有一个负样本预测为正）纵坐标：2/4（4是正样本总数，2表示有两个正样本预测为...

2019-02-22 19:34:21 186

原创 2019.02.04读python深度学习(keras框架)

书里对训练数据和测试数据做z-score归一化的时候，测试数据用的训练数据的均值和标准差，我以为书写错了，其实后面还有一句话是这样的：注意，用于测试数据的均值和标准差都是在训练集上计算得到的，在工作流程中，你不能使用在测试集上得到的任何结果，即使是像数据标准化这么简单的事情也不行。意思是测试集是十分未知的，里面的信息都是不可用的。我觉得这种思想十分重要的呀～...

2019-02-04 18:39:37 222

原创 xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools), missing xcrun at:

maxOs安装lightgbm：brew install cmakebrew install libompgit clone --recursive https://github.com/Microsoft/LightGBM ; cd LightGBMmkdir build ; cd buildcmake -DOpenMP_C_FLAGS=&quot;-Xpreprocessor -fopenm...

2019-01-28 19:13:56 309

原创这是一篇2018个人年度总结报告

因为新买了键盘，很小很轻便，手感也很好，罗技的，键盘背面写着k380，不知道是不是键盘型号，反正安利一波，我买的红色的，很特别，蓝色黑色的也不错。这一年，我终于终于终于终于毕业了，完成学业，万里长征走到头，对了，房间里正放着小情歌，是我上大学一年级的时候很喜欢的一首歌。大一到现在，像梦一样，到现在，我常常忘记我已经工作了，我不是学生了，嗯。。反正每天上班下班吃饭睡觉就和在学校实验室没什么差别啊，......

2019-01-26 18:54:40 544 1

原创 linux服务器安装python3

su(切到root)mkdir /usr/python3_enve(创建新目录)cd /usr/python3_envewget https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz(下载)tar -zxvf Python-3.6.7.tgz（解压）yum install gcc patch libffi-devel pyt...

2019-01-25 16:34:33 298

原创 sqlite性能调优笔记

1.mmapimport sqlite3cursor = sqlite3.connect(comment_db).cursor()cursor.execute('PRAGMA mmap_size=4294967296')数据库读取和写入的过程，数据要从磁盘拷贝到内核空间，然后拷贝到用户空间，sqlite3提供mmap机制，直接从磁盘拷贝到用户空间，节省了磁盘到内核空间的IO开销。2.s...

2019-01-22 14:24:19 1117

翻译 Click Models for Web Search

chapter 1motivate：Joachims et al. [2005]观察到，相比于列表页排名最后一个文档，用户更喜欢列表页排第一位的文档（观察数据的重要性，引出排序模型）。直观来说，用户点击模型是能描绘用户行为的一套规则。例如，文档位置偏移对文档的影响，大量的用户行为数据表明用户可能更喜欢位置靠前的文档，当然也有注意力偏移，新颖性偏移，以及其他不同模型注意到的不同类型的偏移。点击...

2019-01-15 20:57:22 690

原创 TypeError: can't pickle dict_keys objects解决办法

spark map(f)f函数包含dict.keys()或者dict.values()报错：TypeError: can’t pickle dict_keys objects解决办法：list(dict.keys())

2019-01-15 14:15:42 10877 3

原创 python 毫秒级时间，时间戳转换

python 毫秒级时间，时间戳转换import timefrom datetime import datetimetimestr = ‘2019-01-14 15:22:18.123’datetime_obj = datetime.strptime(timestr, &amp;quot;%Y-%m-%d %H:%M:%S.%f&amp;quot;)time.mktime(datetime_obj.timetuple())...

2019-01-14 15:24:31 62515 3

原创 TypeError: expected string or Unicode, NoneType found

原因是spark存储数据时，会根据数据的前几行（可以设置）判断数据格式（schema），如果数据前几行有一些数据为None，那么无法确定数据的schema，所以报错。解决方案：方法1.按照官方文档为数据定义格式：方法2.填补缺失值为指定数值，dataframe的fillna()函数，例如：df.fillna('unknown')设置所有空值为字符串：‘unknown’...

2019-01-11 15:32:35 3372

原创 spark处理嵌套json

json文件数据如下：{“avg_orders_count”: [{“count”: 1.0, “days”: 3}, {“count”: 0.6, “days”: 5}, {“count”: 0.3, “days”: 10}, {“count”: 0.2, “days”: 15}, {“count”: 0.1, “days”: 30}, {“count”: 0.066, “days”: 45}...

2019-01-10 15:52:23 3077

原创 shell 日期操作

day=20190104字符串变成时间：day_time=`date -d $day`echo $time指定日期的一天前：time=`date -d "1 days ago $day" +%Y%m%d`输出20190103shell的格式太变态了。。time=`date -d "1 days ago $day"+%Y%m%d`这样会有bug：date: invalid ...

2019-01-04 17:31:53 5516

原创查看mapreduce log日志，查找错误

Error截图如下：

2019-01-03 15:53:51 2344

翻译读Applying Deep Learning To Airbnb Search有感

读Applying Deep Learning To Airbnb Search有感介绍Airbnb的房屋预订系统对于房主和租客来说是一个双向的平台，房主想出租他们的空间，租客想预订房间。airbnb.com网站一开始是一个简单的根据一个特定的地理位置，召回一个酒店列表。最初的搜索排序模型是人工评分的，后来梯度提升树（GBDT）代替了人工评分，这是房屋预订系统跨出的一大步，之后随之而来的是系...

2018-12-27 20:54:00 406

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yuan.jin CSDN认证博客专家 CSDN认证企业博客

码龄10年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

19: 原创

15万+: 周排名

54万+: 总排名

9万+: 访问

: 等级

649: 积分

6: 粉丝

22: 获赞

8: 评论

69: 收藏

私信

关注

热门文章

分类专栏

算法 9篇
mapreduce 1篇
shell 1篇
spark 5篇
python编程 4篇
sqlite3 2篇
总结 2篇

最新评论

TypeError: can't pickle dict_keys objects解决办法
weixin_37840964: 请问这个报错要怎么解决呢ValueError: cannot find context for 'fork'
TypeError: can't pickle dict_keys objects解决办法
小小微微: nuscenes在main函数里加上torch.multiprocessing.set_start_method('fork')
Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势
不语qaq: 强啊，写的非常好，列举了多种方法
TypeError: can't pickle dict_keys objects解决办法
uptnv: nuscenes 数据集可以注释数据集中的 self.eval_detection_configs 试试
python 毫秒级时间，时间戳转换
marck_pen 回复 yuan.jin: 对,又运行了一遍代码,是可以通的,可能我代码定义和你不一样,过了两周都有点忘了..

最新文章

提示

确定要删除当前文章？

取消删除