- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 pagerank算法
问题背景在使用搜索引擎时,保持网页与查询一定相关度的基础上,PRPRPR值可以提供不错的排序依据。算法的基本思想“互联网上的网页”——>“图的节点”“网页的出链”——>“指向其他节点的一条有向边”“网页的入链”——>“其他节点指向这个节点的有向边”“整个网络”——>“一张有向图”网页质量的评估遵循以下两个假设(1)一个网页的入链越多,网页质量越高(2)一个...
2019-06-27 22:53:04 294
原创 bm25算法
bm25算法,常用作搜索相关性评分。bm25算法主要思想对Query进行语素解析,生成语素qi;然后,对于每个搜索结果d,计算每个语素qi与d的相关性得分,最后,将“一个Query各个qi相对于d的相关性得分”加权求和,从而得到“Query与d的相关性得分”。bm25算法原理及公式推导一条Query与搜索结果的任意doc之间相关性分数Score(Q,d)=∑inWiR(qi,d)Scor...
2019-06-14 14:27:34 2672
原创 Hadoop学习之MapReduce计算框架
批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作“大规模静态数据集”,并在整体数据处理完毕后返回结果。MapReduce 计算架构提供的主要功能(1)任务调度将一个计算作业(Job)划分成多个计算任务(Tasks)为划分的Tasks分配和调度计算结点(Map 结点或 Reduce 结点)监控计算结点的执行状态Map 结点执行的同步控制计算性能优化处理例如,对最慢的计算任...
2019-06-06 20:26:47 1012 1
原创 shell用法
单引号、双引号、反引号(1)单引号’ '内剥夺所有字符的特殊含义,所有字符都是单纯的字符串而没有特殊功能。如,$取参数等命令是无效的。(2)双引号" "中除了字符串,特殊字符是没有被转义的。如,$等特殊字符一样可以使用其功能。(3)反引号``是命令替换,即把命令输出结果传给入变量。[filter@idxdb1 ~/yy]$ cat test_yh.sh #!/bin/basha=...
2019-06-03 15:20:20 284
test_ctr.zip
2020-05-29
underexpose_train.zip
2020-05-29
tfrecord数据.zip
2020-05-17
word2vec.zip
2019-09-19
README.md文档
2019-08-19
cnews.zip 新浪新闻RSS订阅频道10类文本数据
2019-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人