自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 GBDT + 贝叶斯 = 分类任务

我要开始搞事情了,最近接到一个分类任务。数据量比较小,特征也比较少,GBDT适用于数值型特征做分类,贝叶斯适用于类别型特征,所以,我要把数值型特征扔到GBDT里面分个类别,再把GBDT输出类别和其他类别型特征一起扔到贝叶斯里面。首先把数据处理成libsvm的格式,libsvm格式如下:label feature_id:feature_value feature_id:feature_value feature_id:feature_value …昨晚睡觉前,我在想,这一生这么长,七八十年,能否有其中的

2020-05-15 17:34:41 425

原创 spark的真正用途

发现spark并不是用来处理数据的,它是一门玄学。比如明明最后生成的文件中有那一条,但是中间想单个filter出来,有时候会提示没有那条样本。得靠运气。...

2020-05-08 17:08:24 1035

原创 ps and deeplearning

”知识是互通的“,这是一次旅行中,一个长者对我说的话。这句话在以后的生活中,我的感受越来越明显。疫情期间,在家呆着没事做,于是开始去哔哩哔哩学习ps,学到了ps中各种工具的基本用法。今天在家看李宏毅老师的视频,讲卷积神经网络的时候,讲到了对图片的处理,适当降低图片像素并不会改变图像本身的内容,而且可以减少模型参数,他说,”这个操作可以利用maxpooling完成“。这句话让我觉得maxpooli...

2020-02-20 15:39:11 188

原创 优化算法——FTRL

ctr预测中,单个样本由向量x表示,w是模型参数,预测样本x被点击的概率p=sigmoid(w * x),sigmoid(x) = 1/(1+exp(x))。样本label为{0, 1}表示是否被点击。模型损失函数为交叉熵损失:L = -ylog§ - (1-y)log(1-p),梯度g为损失函数对w求偏导:ftrl更新参数的公式为:这个表示梯度,就是损失函数对参数求偏导。t表示第t...

2020-02-16 22:41:32 415

原创 贝叶斯分类器

贝叶斯分类器问题描述有一堆宝可梦x1,x2, …, xn,,已知的数据是每只宝可梦的各种属性,例如生命值,攻击力等,假设每只宝可梦有m个属性,第一只宝可梦就可以用向量:(x11, x12, …, x1m)表示,问题是预测每只宝可梦的种类,种类用C1, C2表示,例如水火冰等等。贝叶斯公式我们利用贝叶斯公式,给定宝可梦x,输出x属于各类的概率。公式里是假设只有两个类别C1, C2,如果有n...

2020-02-09 18:56:57 266

转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据倾斜对Spark/Hado...

2019-09-03 16:00:10 701 1

原创 修复sqlite数据库

可以尝试通过简单的导出导入方式对损坏的库文件作回复。首先导出数据sqlite3 my.sqlite3sqlite>.output tmp.sqlsqlite>.dumpsqlite>.quit再倒入到一个新库中sqlite3 mynew.sqlite3sqlite>.read tmp.sqlsqlite>.quit这时新建的mynew.sqlite...

2019-05-20 15:02:33 179

原创 平滑项

问题是这样的,今天想为点击模型增加coec特征,这就是coec的公式,分子是某个item某段时间内所有的点击次数,分母是该item在列表中不同位置的展现次数*该位置ctr的累加,ctr是之前数据统计出来的结果,不知道说明白了没有,大概就是这个意思吧,coec的本意是点击数超过预期点击数(click over expect click),分子是实际点击数,分母就是预期点击数。加进点击模型里面发现...

2019-04-30 13:50:10 1108

原创 AUC:ROC曲线面积

ROC曲线:什么真阳率,假阳率的那么难理解。我的理解:ROC曲线横坐标是,所有负样本中预测为正样本的比例;纵坐标是所有正样本中预测为正的比例。例如有样本label序列:1 0 1 1 0 0 1预测的样本label序列:1 0 0 1 0 1 0横坐标:1/3(3是负样本总数,1表示有一个负样本预测为正)纵坐标:2/4(4是正样本总数,2表示有两个正样本预测为...

2019-02-22 19:34:21 186

原创 2019.02.04读python深度学习(keras框架)

书里对训练数据和测试数据做z-score归一化的时候,测试数据用的训练数据的均值和标准差,我以为书写错了,其实后面还有一句话是这样的:注意,用于测试数据的均值和标准差都是在训练集上计算得到的,在工作流程中,你不能使用在测试集上得到的任何结果,即使是像数据标准化这么简单的事情也不行。意思是测试集是十分未知的,里面的信息都是不可用的。我觉得这种思想十分重要的呀~...

2019-02-04 18:39:37 222

原创 xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools), missing xcrun at:

maxOs安装lightgbm:brew install cmakebrew install libompgit clone --recursive https://github.com/Microsoft/LightGBM ; cd LightGBMmkdir build ; cd buildcmake -DOpenMP_C_FLAGS="-Xpreprocessor -fopenm...

2019-01-28 19:13:56 309

原创 这是一篇2018个人年度总结报告

因为新买了键盘,很小很轻便,手感也很好,罗技的,键盘背面写着k380,不知道是不是键盘型号,反正安利一波,我买的红色的,很特别,蓝色黑色的也不错。这一年,我终于终于终于终于毕业了,完成学业,万里长征走到头,对了,房间里正放着小情歌,是我上大学一年级的时候很喜欢的一首歌。大一到现在,像梦一样,到现在,我常常忘记我已经工作了,我不是学生了,嗯。。反正每天上班下班吃饭睡觉就和在学校实验室没什么差别啊,......

2019-01-26 18:54:40 544 1

原创 linux服务器安装python3

su(切到root)mkdir /usr/python3_enve(创建新目录)cd /usr/python3_envewget https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz(下载)tar -zxvf Python-3.6.7.tgz(解压)yum install gcc patch libffi-devel pyt...

2019-01-25 16:34:33 298

原创 sqlite性能调优笔记

1.mmapimport sqlite3cursor = sqlite3.connect(comment_db).cursor()cursor.execute('PRAGMA mmap_size=4294967296')数据库读取和写入的过程,数据要从磁盘拷贝到内核空间,然后拷贝到用户空间,sqlite3提供mmap机制,直接从磁盘拷贝到用户空间,节省了磁盘到内核空间的IO开销。2.s...

2019-01-22 14:24:19 1117

翻译 Click Models for Web Search

chapter 1motivate:Joachims et al. [2005]观察到,相比于列表页排名最后一个文档,用户更喜欢列表页排第一位的文档(观察数据的重要性,引出排序模型)。直观来说,用户点击模型是能描绘用户行为的一套规则。例如,文档位置偏移对文档的影响,大量的用户行为数据表明用户可能更喜欢位置靠前的文档,当然也有注意力偏移,新颖性偏移,以及其他不同模型注意到的不同类型的偏移。点击...

2019-01-15 20:57:22 690

原创 TypeError: can't pickle dict_keys objects解决办法

spark map(f)f函数包含dict.keys()或者dict.values()报错:TypeError: can’t pickle dict_keys objects解决办法:list(dict.keys())

2019-01-15 14:15:42 10877 3

原创 python 毫秒级时间,时间戳转换

python 毫秒级时间,时间戳转换import timefrom datetime import datetimetimestr = ‘2019-01-14 15:22:18.123’datetime_obj = datetime.strptime(timestr, "%Y-%m-%d %H:%M:%S.%f")time.mktime(datetime_obj.timetuple())...

2019-01-14 15:24:31 62515 3

原创 TypeError: expected string or Unicode, NoneType found

原因是spark存储数据时,会根据数据的前几行(可以设置)判断数据格式(schema),如果数据前几行有一些数据为None,那么无法确定数据的schema,所以报错。解决方案:方法1.按照官方文档为数据定义格式:方法2.填补缺失值为指定数值,dataframe的fillna()函数,例如:df.fillna('unknown')设置所有空值为字符串:‘unknown’...

2019-01-11 15:32:35 3372

原创 spark处理嵌套json

json文件数据如下:{“avg_orders_count”: [{“count”: 1.0, “days”: 3}, {“count”: 0.6, “days”: 5}, {“count”: 0.3, “days”: 10}, {“count”: 0.2, “days”: 15}, {“count”: 0.1, “days”: 30}, {“count”: 0.066, “days”: 45}...

2019-01-10 15:52:23 3077

原创 shell 日期操作

day=20190104字符串变成时间:day_time=`date -d $day`echo $time指定日期的一天前:time=`date -d "1 days ago $day" +%Y%m%d`输出20190103shell的格式太变态了。。time=`date -d "1 days ago $day"+%Y%m%d`这样会有bug:date: invalid ...

2019-01-04 17:31:53 5516

原创 查看mapreduce log日志,查找错误

Error截图如下:

2019-01-03 15:53:51 2344

翻译 读Applying Deep Learning To Airbnb Search有感

读Applying Deep Learning To Airbnb Search有感介绍Airbnb的房屋预订系统对于房主和租客来说是一个双向的平台,房主想出租他们的空间,租客想预订房间。airbnb.com网站一开始是一个简单的根据一个特定的地理位置,召回一个酒店列表。最初的搜索排序模型是人工评分的,后来梯度提升树(GBDT)代替了人工评分,这是房屋预订系统跨出的一大步,之后随之而来的是系...

2018-12-27 20:54:00 406

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除