- 博客(7)
- 资源 (23)
- 收藏
- 关注
原创 ALS推荐算法简介
目录ALS(交替最小二乘法)1.1 原理推导2.1.1 ALS2.1.2 ALS-L2正则化2.1.3 Stochastic Gradient ALS2.1.4 隐式反馈(Implicit Feedback )2. 优缺点ALS(交替最小二乘法)ALS (Alternating Least Squares) 交替最小二乘法。ALS 的核心是:打分矩阵R是近似低秩的。换句话说,一个打分矩阵 R ...
2020-04-12 22:25:37 2166
原创 tensorflow2.0基础简介
tensorflow2.0简介1、tensorflow 2.0基础知识简介tensorflow2.0是谷歌在2019年3月份发布更新的一款到端开源机器学习平台,其目的在于优化tensorflow1.x版本,使其更灵活和易用性;2.0版本较1.x有较大的更新,具有简易性、更清晰、扩展性三大特征,大大简化1.x 的API,其官方中文文档链接如:https://github.com/geektutu...
2020-04-12 20:56:06 946
原创 数据倾斜原因及其解决方案
1、数据倾斜的概念数据倾斜是在map/reduce执行程序时,reduce大部分节点执行完毕,但有一个或者少数几个节点执行很慢,导致其他程序一直处于等待的状态,使得整个程序执行时间较长。2、为什么出现数据倾斜?主要是在shuffle过程中,由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。表现如下:1、大部分的task执行完毕,少数几个甚至一个task可以执行但...
2020-04-12 20:55:14 1436
原创 分类算法评价准则
1 分类算法评价准则分类评价准则有Recall, Precision, ROC,AUC, Lift 曲线,KS曲线等。1.1 基础指标为了描绘的简单,在此给出一个实例:Table 3.1 样例图indexScoretrue labelPredict labelindexScoretrue labelPredict label10.9TT110....
2020-04-12 20:53:46 2342 2
原创 hive sql基本语法及注意事项
sql left join和 not in 比较建议在写sql语句的时候,尽量避免用not in 而 优先选择left join,这样效率会提高很多尽量用count(1) 而不是count(*)
2020-04-01 14:30:38 372
原创 spark DataFrame正则表达式
spark DataFrame正则表达式注意 在spark中使用正则的时候,需要时时刻刻加上转义自符'\'需要使用'\\',例如'\w'需要使用'\\w'正则表达式,使用的库在sql.funtions 下,如导入split和regexp_extractimport org.apache.spark.sql.functions.{regexp_extract,split}1.1 spl...
2020-04-01 14:22:51 3599
原创 python积铢累寸
一、python package1.numbanumba有两种编译模式:nopython模式和object模式。前者能够生成更快的代码,但是有一些限制可能迫使numba退为后者。想要避免退为后者,而且抛出异常,可以传递nopython=True.import numba@jit(nopython=True)def f(x, y): return x + ynumba目标是加快...
2020-04-01 12:12:08 463
sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl
2018-03-09
PyQt4-4.11.4-cp35-cp35m-win_amd64.whl
2018-03-09
java各种算法,类似于冒泡,汉诺塔,三阶幻方,判断回文
2017-11-03
A Communication-Efficient Parallel Algorithm for Decision Tree
2017-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人