自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 spark ip识别

1. ip2region idea 上应用(spark) pom添加仓库 <dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.7.2</version> </dependency> import org.lionsoul.ip2region.{DbConfi

2020-11-16 10:43:09 104

原创 spark-shell excel读写

https://github.com/crealytics/spark-excel

2020-05-09 09:57:01 445

原创 scala filter操作的记录(持续增加),创建空表

1.filter过滤指定字符串的值 val a = lines.filter(x=>x.contains("python")) //选出包含“python”的行 2.Dataframe filter sql语法正则匹配 val a = df.filter("columnName rlike '正则'") 3.Dataframe filter 过滤列表内值 val dateList = L...

2020-04-28 11:32:53 262

原创 idea pom文件更新版本问题

之前在idea导入scalaj包的时候scala版本总是出错,一直找不到原因,最后查找maven仓库发现是不支持某些版本,在此记录下来,避免下次类似问题采坑 https://mvnrepository.com/artifact/org.scalaj/scalaj-http ...

2020-04-28 11:21:46 492

原创 开发中召回集合的生成【笔记】

工具: 采用算法,CF,ALS,所用开发环境 spark-ml库 原始数据格式: uin|mapid|TotalDuration 用户-地图-游戏时间 步骤: 处理原始数据,用相关用户行为定义算法,处理数据得到 uin|mapid|rating 对应用户-地图评分 根据评分数据计算地图相似度(ITEM_CF,邻域算法) 用户相似采用spark-ml自带的ALS算法,原始数据UinC...

2020-03-09 15:52:55 202

原创 冷启动笔记-引用[图灵原创].推荐系统实践

冷启动问题(cold start)主要分3类。 用户冷启动 用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到 来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他。 做个性化推荐。 2.1 物品冷启动 物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。 2.2 系统冷启动 系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也...

2020-03-09 15:19:48 116

原创 hive学习笔记1

hive学习笔记 1.简单的 wordcount select word,count(1) from ( select explode(split(sentence,' ')) as word from t2 ) t group by word; 对t2表中的sentence列进行空格分隔,统计单词出现的数量 select word,count(1) as n from ( select exp...

2019-01-02 20:54:34 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除