机器学习
ronaldo2018
这个作者很懒,什么都没留下…
展开
-
天池新人实战赛之[离线赛]尝试(三)
接上面两篇文章,只提取10个特征,是远远不够的。看了一些参加S2比赛的博客总结,先通过一些强规则(SQL)来确定结果。获取前一日(12.18)添加了购物车,当天没有购买过并且在商品子集中的 U-I组合。SQL写法:--筛选出12.18添加进购物车的select a.user_id,a.item_id from (select * from vipfin.tianchi_fresh_...原创 2018-04-16 13:24:17 · 570 阅读 · 0 评论 -
天池新人实战赛之[离线赛]尝试(二)
上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表训练数据11.22~11.27U-I集合行为数据对应的大数据表名: temp_fin.temp_tianchi_train1_data验证数据11.29~12.04U-I集合行为数据对应大数据表名: 数据预处理思路:1.筛选一些异常的训练数据(只买不看的U-I组...原创 2018-04-11 17:35:59 · 286 阅读 · 0 评论 -
天池新人实战赛之[离线赛]尝试(一)
题目(https://tianchi.aliyun.com/getStart)就不贴了。经过一些百度的资料,可以将这个问题简化为:某个U-I组合在观察日是否有购买行为?(二分类问题)接下来分几个步骤来拆解整个过程:一.简单分析将两个数据表.tianchi_fresh_comp_train_item和tianchi_fresh_comp_train_user存入到数据库中,对应表...原创 2018-04-09 16:00:30 · 472 阅读 · 0 评论 -
天池新人实战赛之[离线赛]尝试(四)
之前的特征值有10几个,有点少了。增加特征值到原创 2018-05-16 15:46:48 · 1087 阅读 · 0 评论 -
机器学习特征值转换(使用spark.ml)
pyspark.ml.feature 下有很多处理特征的方法。在处理特征值时,有一个归化(缩放)的概念,将特征值转换到 量度统一的范围内。这里介绍几种方法:1.MinMaxScaler将数据缩放至给定的最小值与最大值之间,通常是0与1之间2.MaxAbsScaler最大的绝对值缩放至单位大小。但是它通过除以最大值将训练集缩放至[-1,1]。这意味着数据已经以0为中心或者是含有非常非常多0的稀疏数据...原创 2018-04-13 13:48:38 · 363 阅读 · 0 评论 -
使用spark.createDataFrame报错
spark_df = spark.createDataFrame(df)pandas df转换为spark df时报错Can not merge type <class 'pyspark.sql.types.LongType'> and <class 'pyspark.sql.types.StringType'> 原因:df中有空值,去掉空值,强转类型 即可df['item...原创 2018-04-13 13:47:59 · 10353 阅读 · 0 评论 -
反向传播算法学习
一.准备工作反向传播算法是神经网络中一个重要的过程。了解反向传播算法之前先来理解几个概念:1.全导 和偏导求导是数学计算中的一个计算方法,它的定义就是,当自变量的增量趋于零时,因变量的增量与自变量的增量之商的极限。在一个函数存在导数时,称这个函数可导或者可微分。可导的函数一定连续。不连续的函数一定不可导。全导数是对各个变量求偏导后叠加偏导数是只对其中一个变量求导数,物理几何意义是一个平面(平行于x...原创 2018-04-13 13:43:46 · 371 阅读 · 0 评论 -
天池新人实战赛之[离线赛]尝试(二)
上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表训练数据11.22~11.27U-I集合行为数据对应的大数据表名: temp_fin.temp_tianchi_train1_data验证数据11.29~12.04U-I集合行为数据对应大数据表名:temp_fin.temp_tianchi_train2_data预测数据12.13~12.18U-I集合行为数据...原创 2018-04-13 13:41:06 · 1166 阅读 · 0 评论 -
天池新人实战赛之[离线赛]尝试(一)
题目(https://tianchi.aliyun.com/getStart)就不贴了。经过一些百度的资料,可以将这个问题简化为:某个U-I组合在观察日是否有购买行为?(二分类问题)接下来分几个步骤来拆解整个过程:一.简单分析将两个数据表.tianchi_fresh_comp_train_item和tianchi_fresh_comp_train_user存入到数据库中,对应表名:vipfin.t...原创 2018-04-13 13:34:31 · 2766 阅读 · 0 评论 -
机器学习特征值转换(使用spark.ml)
pyspark.ml.feature 下有很多处理特征的方法。在处理特征值时,有一个归化(缩放)的概念,将特征值转换到 量度统一的范围内。这里介绍几种方法:1.MinMaxScaler将数据缩放至给定的最小值与最大值之间,通常是0与1之间2.MaxAbsScaler最大的绝对值缩放至单位大小。但是它通过除以最大值将训练集缩放至[-1,1]。这意味着数据已经以0为中心或者...原创 2018-04-12 17:45:05 · 436 阅读 · 0 评论