学习周报20200605 | DLRS,大数据操作,搜索的思考

【学习周报】

总结自己的学习和遇到的好材料。

往期回顾:

深度学习推荐系统

DLRS就当做这本书的简称了哈哈哈哈。

王喆老师的书一到手就津津有味的看起来,很多一些思维上的东西,看起来还是不错的。这本书曾经聊过,此处不赘述啦。

大数据的操作

俗话说巧妇难为无米之炊,算法工程师多少还是需要对数据有足够的了解。自己本身是有写过mapreduce的经验,但随着技术发展,spark具有由于他的特性,所以也慢慢开始学起来。看过那些比较好的材料,我一并分享给大家吧。

candyhub

由于上周停刊,这次把上周到这周的内容都放出来吧。

20200527

c++和python的联动

对于本不用再工程上有过深(相比真正在做工程的同学)有过高要求的而言,python还是比较优秀的开发工具,但是考虑到性能,c++终究要远远优于python,因此还是需要一些能结合两者的手段。

  • boost python:https://www.boost.org/doc/libs/1_68_0/libs/python/doc/html/index.html

  • cython:https://cython.org/

  • python的打包工具:setuptools,https://github.com/pypa/setuptools

有关搜索业务的思考

搜索本身是一个用户有强烈意愿的系统,这个和推荐很不一样,仔细想有这么几点思路:

  • 推荐更多是靠猜,通过一些外部信息加具体行为来推断,效果好坏不好直接人为评估,可以看指标。而搜索靠的是分析,效果一出,对于绝大多数人而言,输这个希望出的结果其实是接近的。

  • 接着上层,搜索的曝光,其实本身就能一定程度体现这个偏好,因为query分析阶段,本身就考虑了用户的意图,这个意图是用户自己输入的,不是我们猜的。

  • 当然点击能很好的表达用户的偏好,但这个点击其实更多的含义是我找到了我想要的东西,所以点击率,只能用来衡量搜索结果的质量(这里包括我们搜索算法做的好坏,也包括物料本身的质量)。

  • 硬是要想分析搜索偏好,可以看看用户的某个搜索意图占所有曝光意图的比例,例如用户10次搜索有9次和c++有关,这个人多半是c++程序员没跑了,不要说什么学生吧,但凡干的是不相关专业的人,问不出这么多专业的问题吧。

繁体转简体

两个链接足够了。

https://blog.csdn.net/wds2006sdo/article/details/53583367

https://www.cnblogs.com/tangxin-blog/p/5616415.html

20200531

数据增强

查了不少资料,汇总一下吧。

  • 最经典的EDA:Wei J W, Zou K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks[J]. arXiv preprint arXiv:1901.11196, 2019.

  • https://zhuanlan.zhihu.com/p/112877845

  • https://mp.weixin.qq.com/s/ySxLHnaEMBXjcYPb4xc1Rg

  • https://kexue.fm/archives/7234

20200604

数据处理类:

  • 稀疏矩阵问题处理:https://blog.csdn.net/ouyangfushu/article/details/80199207

大数据操纵类:

  • 数据倾斜问题:https://blog.csdn.net/weixin_35353187/article/details/84303518

  • Python结合Shell/Hadoop实现MapReduce:https://www.cnblogs.com/manhua/p/6593185.html

  • hive实现设置reduce个数的方法:https://blog.csdn.net/javastart/article/details/91381168

  • 【hadoop】如何向map和reduce脚本传递参数,加载文件和目录:cnblogs.com/zhengrunjian/p/4536572.html

  • Python结合Shell/Hadoop实现MapReduce:https://www.cnblogs.com/manhua/p/6593185.html

  • hive实现设置reduce个数的方法:https://blog.csdn.net/javastart/article/details/91381168

  • mapreduce-hive调优https://blog.csdn.net/fengzheku/article/details/85004760

  • pyspark rdd快速处理:https://blog.csdn.net/qq_29153321/article/details/88648948

20200605

cassandra入门
  • w3c还是比较稳的:https://www.w3cschool.cn/cassandra/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值