大数据
两面包+芝士
主研多模态方向,包括对齐,融合,情感分析,命名实体识别,关系抽取,目标检测,图像描述等
展开
-
协同过滤推荐算法的用户向量相似度计算
给定“项目(items)*用户(Users)”矩阵。若采用余弦相似度计算用户向量的相似度,请预测用户1对项目2的评分(最相似用户取top-2用户)。由于是5分制,四舍五入取整数,约等于4分原创 2021-12-17 19:00:00 · 378 阅读 · 0 评论 -
固定大小采样池中的随机采样证明
若对一个数据流维护一个固定大小的采样(例如s个元素),且对数据流当前到达的第n+1个数据元素以????/(????+1)概率决定其是否放入采样池中,并以概率1/????随机置换采样池中某一元素,请证明该采样是一个随机采样。证明:已知第n+1个元素以 ????/(????+1)概率决定是否放入采样池中Pn+1=s/(????+1)设某元素在采样池中,可能性分2种1、并未以第n+1次采样,采样出 (1-????/(????+1))设为 P12、发生了n+1次采样,但是目标元素未被置换 (????/(??原创 2021-12-16 16:00:00 · 268 阅读 · 0 评论 -
计算原矩阵Jaccard相似度和签名矩阵的Jaccard相似度
M1和M4的Jaccard相似度为 3/6M1和M2的Jaccard相似度为 1/7M2和M4的Jaccard相似度为 2/5Jaccard相似度是数所求两列中出现1的行数作为分母,都出现1的行数作为分子基于A的签名矩阵为 [2 3 2 3]基于B的签名矩阵为 [1 3 3 1]基于C的签名矩阵为 [1 3 1 1]所以签名矩阵S为 S1和S2的Jaccard相似度为0S1和S4的Jaccard相似度为 2/3S2和S4的Jaccard相似度为 1/3...原创 2021-12-15 07:15:00 · 1897 阅读 · 1 评论 -
网页排序向量计算和改进
经过两次迭代计算就是会出现A、B、C、D权重严重不均匀的现象,会导致D的权重越来越接近1(蜘蛛陷阱),B的权重越来越接近0(黑洞现象)。改进方法:引入公式其中α取0.8~0.9,N = 4原创 2021-12-13 22:32:20 · 1065 阅读 · 0 评论 -
大数据环境下的智慧教育
疫情驱动线上教学大范围开展,深度促动了智慧教育发展。请基于对大数据的认知和相关技术、以及对教育服务的理解,聚焦高等教育范畴,回答以下问题:(1) 请简述大数据驱动的智慧教育服务的核心特征智慧教育目的是分析学生学习数据,预测学生学习成绩,进行课程推荐与学习规划。智慧教育的核心要义也是培养人,智慧教育是教育在智能时代的新升华,是教育信息化推动教育变革的新阶段。它可以促进教育公平与质量提升,并颠覆传统学习过程与方式。发展智慧教育,可以为国家经济社会发展提供人才支撑和智力保障,解决当前教育的难点问题,增强国.原创 2021-12-09 04:00:00 · 664 阅读 · 0 评论 -
Hadoop和Spark三大核心组件介绍与对比
HadoopHadoop依靠MapReduce的数据处理HDFS: HDFS是一个分布式文件系统,是 Hadoop 的存储核心, 它可以被部署运行于大量的廉价服务器上,可以处理超大文件,它的设计是建立在“一次写入,多次读取的”思想之上。对于被上传到 HDFS 上的数据,系统会对其进行分块分进行保存,分块概念的存在是 HDFS 可以存储大量文件的重要原因。 HDFS 中有两个重要概念 NameNode 和 DataNode,NameNode 是中心服务器,负责管理文件系统命名空间以及客户端对文件的访问,原创 2021-12-08 13:30:00 · 838 阅读 · 0 评论