【学习周报】
总结自己的学习和遇到的好材料。
往期回顾:
深度学习推荐系统
DLRS就当做这本书的简称了哈哈哈哈。
王喆老师的书一到手就津津有味的看起来,很多一些思维上的东西,看起来还是不错的。这本书曾经聊过,此处不赘述啦。
大数据的操作
俗话说巧妇难为无米之炊,算法工程师多少还是需要对数据有足够的了解。自己本身是有写过mapreduce的经验,但随着技术发展,spark具有由于他的特性,所以也慢慢开始学起来。看过那些比较好的材料,我一并分享给大家吧。
candyhub
由于上周停刊,这次把上周到这周的内容都放出来吧。
20200527
c++和python的联动
对于本不用再工程上有过深(相比真正在做工程的同学)有过高要求的而言,python还是比较优秀的开发工具,但是考虑到性能,c++终究要远远优于python,因此还是需要一些能结合两者的手段。
boost python:https://www.boost.org/doc/libs/1_68_0/libs/python/doc/html/index.html
cython:https://cython.org/
python的打包工具:setuptools,https://github.com/pypa/setuptools
有关搜索业务的思考
搜索本身是一个用户有强烈意愿的系统,这个和推荐很不一样,仔细想有这么几点思路:
推荐更多是靠猜,通过一些外部信息加具体行为来推断,效果好坏不好直接人为评估,可以看指标。而搜索靠的是分析,效果一出,对于绝大多数人而言,输这个希望出的结果其实是接近的。
接着上层,搜索的曝光,其实本身就能一定程度体现这个偏好,因为query分析阶段,本身就考虑了用户的意图,这个意图是用户自己输入的,不是我们猜的。
当然点击能很好的表达用户的偏好,但这个点击其实更多的含义是我找到了我想要的东西,所以点击率,只能用来衡量搜索结果的质量(这里包括我们搜索算法做的好坏,也包括物料本身的质量)。
硬是要想分析搜索偏好,可以看看用户的某个搜索意图占所有曝光意图的比例,例如用户10次搜索有9次和c++有关,这个人多半是c++程序员没跑了,不要说什么学生吧,但凡干的是不相关专业的人,问不出这么多专业的问题吧。
繁体转简体
两个链接足够了。
https://blog.csdn.net/wds2006sdo/article/details/53583367
https://www.cnblogs.com/tangxin-blog/p/5616415.html
20200531
数据增强
查了不少资料,汇总一下吧。
最经典的EDA:Wei J W, Zou K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks[J]. arXiv preprint arXiv:1901.11196, 2019.
https://zhuanlan.zhihu.com/p/112877845
https://mp.weixin.qq.com/s/ySxLHnaEMBXjcYPb4xc1Rg
https://kexue.fm/archives/7234
20200604
数据处理类:
稀疏矩阵问题处理:https://blog.csdn.net/ouyangfushu/article/details/80199207
大数据操纵类:
数据倾斜问题:https://blog.csdn.net/weixin_35353187/article/details/84303518
Python结合Shell/Hadoop实现MapReduce:https://www.cnblogs.com/manhua/p/6593185.html
hive实现设置reduce个数的方法:https://blog.csdn.net/javastart/article/details/91381168
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录:cnblogs.com/zhengrunjian/p/4536572.html
Python结合Shell/Hadoop实现MapReduce:https://www.cnblogs.com/manhua/p/6593185.html
hive实现设置reduce个数的方法:https://blog.csdn.net/javastart/article/details/91381168
mapreduce-hive调优https://blog.csdn.net/fengzheku/article/details/85004760
pyspark rdd快速处理:https://blog.csdn.net/qq_29153321/article/details/88648948
20200605
cassandra入门
w3c还是比较稳的:https://www.w3cschool.cn/cassandra/