自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号:瑞行AI

欢迎关注公众号瑞行AI,算法交流学习、算法咨询服务

  • 博客(4)
  • 资源 (9)
  • 收藏
  • 关注

原创 pagerank算法

问题背景在使用搜索引擎时,保持网页与查询一定相关度的基础上,PRPRPR值可以提供不错的排序依据。算法的基本思想“互联网上的网页”——>“图的节点”“网页的出链”——>“指向其他节点的一条有向边”“网页的入链”——>“其他节点指向这个节点的有向边”“整个网络”——>“一张有向图”网页质量的评估遵循以下两个假设(1)一个网页的入链越多,网页质量越高(2)一个...

2019-06-27 22:53:04 294

原创 bm25算法

bm25算法,常用作搜索相关性评分。bm25算法主要思想对Query进行语素解析,生成语素qi;然后,对于每个搜索结果d,计算每个语素qi与d的相关性得分,最后,将“一个Query各个qi相对于d的相关性得分”加权求和,从而得到“Query与d的相关性得分”。bm25算法原理及公式推导一条Query与搜索结果的任意doc之间相关性分数Score(Q,d)=∑inWiR(qi,d)Scor...

2019-06-14 14:27:34 2672

原创 Hadoop学习之MapReduce计算框架

批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作“大规模静态数据集”,并在整体数据处理完毕后返回结果。MapReduce 计算架构提供的主要功能(1)任务调度将一个计算作业(Job)划分成多个计算任务(Tasks)为划分的Tasks分配和调度计算结点(Map 结点或 Reduce 结点)监控计算结点的执行状态Map 结点执行的同步控制计算性能优化处理例如,对最慢的计算任...

2019-06-06 20:26:47 1012 1

原创 shell用法

单引号、双引号、反引号(1)单引号’ '内剥夺所有字符的特殊含义,所有字符都是单纯的字符串而没有特殊功能。如,$取参数等命令是无效的。(2)双引号" "中除了字符串,特殊字符是没有被转义的。如,$等特殊字符一样可以使用其功能。(3)反引号``是命令替换,即把命令输出结果传给入变量。[filter@idxdb1 ~/yy]$ cat test_yh.sh #!/bin/basha=...

2019-06-03 15:20:20 284

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除