自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 pyspark小白:尝试性能优化一点心得

前言:本人之前情况是有python编程基础,但对大数据分布式的掌握限于皮毛的理论知识。借着任务驱动,历时两周空闲时间,先后学习了1.spark(pyhon版)之RDD编程,SparkSql,SparkMl;2.了解spark运行的基本底层原理,在写代码时对spark性能优化的一些手段。其实很浅,把自己一些tips整理出来,希望能帮助到同样开始入门的小白白。业务场景:业务上希望能找到文不对题的CP(昵称简介与本人生产视频不符,会给消费者先入为主带来一些主观上的意外感的CP)。一个指标是计算视频TA

2020-07-20 19:14:11 1125

原创 pyspark入门整理

最近工作需要对千万以上数据做特征处理,为了提升运(zao)算(ri)效(xia)率(ban),开始使用pyspark做分布式运算。也是从基本开始学习,先把用到的一些资料贴在这里,日后有空结合业务进一步整理。(一)原理篇一文弄懂PySpark原理与实践https://blog.csdn.net/oTengYue/article/details/88417186(二)上手篇官方文档spark.apache.org内部tdw spark文档https://git.code.oa.co...

2020-07-02 15:03:18 426

原创 算法与数据结构#分治与动态规划

分治法,动态规划法,这两者之间有类似之处,比如都需要将问题划分为一个个子问题,然后通过解决这些子问题来解决最终问题。但其实这两者之间的区别还是蛮大的。动态规划也是一种分治思想(比如其状态转移方程就是一种分治),但与分治算法不同的是,分治算法是把原问题分解为若干个子问题,自顶向下求解子问题,合并子问题的解,从而得到原问题的解。动态规划也是把原始问题分解为若干个子问题,然后自底向上,先求解最...

2020-03-19 00:42:13 233

原创 算法与数据结构#理解回溯和递归

大学后两年主要在学习数据分析、数据挖掘算法,好久没有复习数据结构和算法这门课的知识。拾起来的过程不易,多做笔记。一.递归程序调用自身的编程技巧称为递归( recursion)。 递归做为一种算法在程序设计语言中广泛应用。 一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法,它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解,递归策略只需少量的程序就可...

2020-03-05 17:58:14 335

原创 特征工程(三)数挖不同类型数据特征工程中处理pipeline

非常简略的整理下在特征工程我会采用的一些常规流程,不做具体介绍。一.数值特征1. 预处理 2. 离散值处理labelEncoder /map /one-hot-encoding /get_dummy二值特征转换多项式特征(模型用SVM)3. 连续特征离散化binning分位数切分4. 对数变换(模拟正态分布)二.日期特征...

2020-02-20 13:24:55 580

原创 embedding

不是做NLP方向对这方面之前也并不了解,但本科学习过文本挖掘课程,在数据挖掘的时候偶尔会涉及到对本文特征的处理,只好趁着机会再学习总结下。embedding简单来说,embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个item(商品,或是一个电影等等)。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)和...

2020-02-19 16:01:44 1100

原创 数据挖掘#金融风控总结

作为本科某财经211出身的一只程序媛,大学期间的两份实习都是在金融科技公司做金融风控方向的数据分析与挖掘。一年多后的今天,借着知识梳理的机会,稍微总结回忆下接触到的金融风控知识。第一份实习A是在大三结束出国交换之前,在某全国唯一持有金融牌照的中小银行金融科技服务公司的大数据风控部门做实习生,公司主要为中小银行提供集核心业务系统、互联网金融系统、外联业务平台、大数据服务及运营、风控支持等全方位的...

2020-02-15 21:17:38 3126 1

转载 scikit-learn和tensorflow的区别

1、功能不同Scikit-learn(sklearn)的定位是通用机器学习库,而TensorFlow(tf)的定位主要是深度学习库。一个显而易见的不同:tf并未提供sklearn那种强大的特征工程,如维度压缩、特征选择等。究其根本,我认为是因为机器学习模型的两种不同的处理数据的方式:传统机器学习:利用特征工程(feature engineering),人为对数据进行提炼清洗 深度学习:利...

2020-02-14 18:18:42 205

原创 数据挖掘#特征工程(二)特征重要性及可解释性总结

在打比赛的时候一直贯穿的思考,大概就是判别各个特征的重要性。在建立模型之前,特征重要性能够帮助训练模型,防止过拟合,提升模型的RUC效果。建立模型之后,特征重要性能够增强模型(集成模型 非深度学习模型)的可解释性,帮助建立模型信任、做出现实意义上的决策。建模前特征重要性判别要构建数值型连续变量的监督学习模型,最重要的方面之一就是好好理解特征。观察一个模型的部分依赖图有助于理解模型的...

2020-02-13 20:17:59 18169 1

原创 数据挖掘#道路流量预测的一些思考(时序数据相关)

实习之后一直很好奇公司的道路情况预测模型是怎么构建的。找到一些资料有了一点业内的概念,结合相关数据挖掘赛题数据,动手做了一点东西,稍微总结一下。使用模型XGBoost,LBM,LSTM模型倒是其次,总结想落在关于时序数据的处理过程。传统时间序列处理定义时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。构成要素时间序列可以分为长期趋势(trend...

2020-02-12 20:47:02 1146

原创 天池-工业预测总结-XGBoost

比赛网址https://tianchi.aliyun.com/competition/entrance/231693/information赛题分析https://www.jianshu.com/p/f15e01d377ef?utm_campaign=haruki文中选用了一些主流的机器学习模型测试预测结果,最终选择随机森林。参考了他的模型结果,随机森林是多颗独立的树,在改进的时...

2020-02-11 18:08:54 681

原创 数据分析#SQL优化

四个月的实习期很快就要结束了,在实际使用SQL对线上业务数据进行处理时,得到最大的提升就是面对HIVE表中百万级数据的性能优化处理。在此对相关知识进行整理。一、全表扫描和索引扫描在数据库中,对无索引的表进行查询一般称为全表扫描。全表扫描是数据库服务器用来搜寻表的每一条记录的过程,直到所有符合给定条件的记录返回为止。索引指数据库的目录,是对数据库表中一列或多列的值进行排序的一种结构,使用...

2020-02-08 12:17:06 263

原创 数分商分商用指标汇总

一、网页访问数据指标1、PV(Page View)页面浏览量指某段时间内访问网站或某一页面的用户的总数量。通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。2、UV(Unique Visitor)独立访客指来到网站或页面的用户总数。这个用户是独立的,同一用户不同时段访问网站只算...

2020-02-07 19:46:33 942

原创 数据挖掘#特征工程(一)总结

1. Overview:2. 特征选择主要凭借对业务本身的理解和建模来定的。1 向前贪心选择特征子集X从空集开始,只要特征使得交叉验证之后的auc提升,就加入这个特征,直到剩下的特征都不能使auc提高为止,缺点是只加不减。def cv_loop(X, y, model, N): mean_auc = 0. for i in range(N): ...

2020-02-07 19:10:10 1349

转载 python中常用的九种预处理方法分享

本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。? 1 ...

2018-08-22 09:12:33 229

转载 GitHub初体验——将项目代码保存到github仓库

因为 github 部署瓶颈,以前一直都没有做好代码管理。自从电脑崩过一次,代码消失后才体会到磨刀不误砍柴工的重要性。201803开启了 github 搬运工一路。记录了从0到1的过程:如何将自己学期初练习的第一个小项目搬运到github仓库。注:内容综合了几个版本+自己的内容,力求最全面的帮助像我一样的小白入门。=======以下是综合========= 一、创建github repositor...

2018-03-16 16:25:11 1920

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除