- 博客(0)
- 资源 (9)
- 收藏
- 关注
test_ctr.zip
贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。
2020-05-29
underexpose_train.zip
用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。
2020-05-29
tfrecord数据.zip
tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。
2020-05-17
word2vec.zip
This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.
2019-09-19
README.md文档
spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides
high-level APIs in Scala, Java, Python, and R, and an optimized engine that
supports general computation graphs for data analysis. It also supports a
rich set of higher-level tools including Spark SQL for SQL and DataFrames,
MLlib for machine learning, GraphX for graph processing,
and Spark Streaming for stream processing.
2019-08-19
cnews.zip 新浪新闻RSS订阅频道10类文本数据
数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。
2019-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人