机器学习
文章平均质量分 70
机器学习
Wzideng
记住一件事:
越努力越进步越自信
越懒惰越迷茫越焦虑越自卑。
业精于勤荒于嬉,行成于思毁于随。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Spark的K-means快速聚类算法的优化
摘要1 引言2 相关研究2.1 Spark计算框架2.2 K-means算法2.3 K-means++算法3 SMGK-means算法及在Spark上的并行化实现3.1 改进K-means算法措施(一共三种)3.2 肘部法则确定K值3.3 算法改进步骤3.4 基于Spark的SMGK-means算法的并行实现3.5 每个K值下SMGK-means算法时间复杂度分析4 实验及结果分析1)算法运行时间比较。2)准确率对比。3)加速比的对比。原创 2023-09-19 19:48:00 · 725 阅读 · 1 评论 -
阅读分享--重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文
我们自底而上看这个网络,最底层的输入是用户观看过的video的embedding向量,以及搜索词的embedding向量。至于这个embedding向量是怎么生成的,作者的原话是这样的:受连续词袋语言模型的启发,我们为每个视频学习 x 定义词汇的高维嵌入,并将这些嵌入输入前馈神经网络所以作者是先用word2vec方法对video和search token做了embedding之后再作为输入的,这也是做embedding的“基本操作”,不用过多介绍;当然,除此之外另一种大家应该也比较熟悉,就是。原创 2023-09-11 15:05:44 · 222 阅读 · 0 评论 -
基于网络表示学习的 新闻推荐算法研究与系统实现
如Li等人[10]对协同过滤算法进行改进,考虑了新闻的特征词所属词性和所在位置对结果的影响,利用时间窗口动态监测用户兴趣偏好。由此得出的新闻内容相似度[11]解决了用户兴趣迁移过程中推 荐准确性率低的难题,也缓解了数据稀疏、可扩展性差的问题。该方法考虑了 不同属性对区分用户的贡献度,准确计算了用户间的属性相似度,有效提高了 数据采集结果的准确性。原创 2023-09-06 17:31:22 · 801 阅读 · 0 评论 -
2023年09月03日-----16:58
LR(Logistic Regression)和FM(Factorization Machines)都是机器学习中用于解决分类和回归问题的模型,但它们有不同的原理和应用场景。LR是一种广泛应用于二元分类问题的线性模型。它的主要思想是将输入特征的线性组合传递给一个logistic函数,以将输出映射到0到1之间的概率值。LR适用于具有线性关系的问题,它可以用于分类任务,例如垃圾邮件检测、客户流失预测等。LR的训练通常使用最大似然估计(Maximum Likelihood Estimation)方法。原创 2023-09-03 18:29:29 · 523 阅读 · 0 评论 -
ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation
在自然语言处理中,注意力机制在机器翻译、文本摘要生成等任务中被广泛应用,能够帮助模型生成更准确、流畅的输出。总之,注意力机制是一种强大的技术,可以在处理序列数据的任务中提升模型的性能,使模型能够更有效地处理关联信息和长序列。原创 2023-08-14 17:17:52 · 264 阅读 · 0 评论 -
5.1.4.8 RDD 持久化
总的来说,缓存主要用于优化计算性能和减少重复计算,而检查点主要用于提供容错性和数据恢复能力。在实际应用中,可以根据具体的场景和需求来选择使用缓存还是检查点,或者两者结合使用,以实现更好的性能和可靠性。3)建议对 checkpoint()的 RDD 使用 Cache 缓存,这样 checkpoint 的 job 只需从 Cache 缓存。2)Cache 缓存的数据通常存储在磁盘、内存等地方,可靠性低。由于血缘依赖过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果检查点。原创 2023-07-04 18:38:13 · 250 阅读 · 0 评论 -
Scala作业(3):类/包和引入
以下是一个示例的Time类的实现,包括只读属性hours和minutes,以及用于比较时间的方法beforehoursminutes在上面的代码中,我们定义了一个名为Time的类,它具有只读属性hours和minutes,它们分别用于存储小时和分钟。我们还实现了一个before方法,它接受另一个Time对象作为参数,并返回一个布尔值,指示当前时间是否早于给定的时间。在before方法中,我们首先比较小时部分hours,如果当前时间的小时部分小于给定时间的小时部分,则返回true。原创 2023-07-04 15:37:30 · 542 阅读 · 0 评论 -
Scala作业(2):控制结构和函数
根据你提供的递归定义,我假设你的意思是计算x的n次幂。以下是根据这个定义编写的递归函数power1 } } // 调用 power 函数进行测试 val x = 2.0 val n = 3 val result = power(x , n) println(s " $ x 的 $ n 次幂: $ result ")x。原创 2023-07-04 15:19:35 · 639 阅读 · 0 评论 -
Scala作业(1):
表达式10 max 2是在 Scala 中使用的一种语法,用于比较两个数值并返回较大的那个数。在这个表达式中,10和2是两个整数。通过调用max方法,它们被比较,并返回较大的数。所以,10 max 2的结果是10。max方法是定义在 Scala 的内置数值类型RichInt中的,它是Int类型的一个隐式类扩展(implicit class extension)。RichInt类提供了许多额外的数值操作方法,包括maxminabs等等。为了使用max方法,你需要导入RichInt。原创 2023-07-04 15:06:33 · 668 阅读 · 0 评论 -
4.3 Hadoop发行版的选择/4.4 大数据产品与互联网产品结合/4.5 大数据应用--数据分析/4.6 数据分析案例
hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致 的各个组件配合是有不会有兼容性问题。8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常,运营人员开始尝试寻找原因。通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一。大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的。运营人员发现从 8 月 15 日开始,网站的订单量连续四天明显下跌。运营数据的获取需要大数据平台的支持。原创 2023-07-03 21:07:17 · 624 阅读 · 0 评论 -
避免特征选择中的常见陷阱(Soundex、Mataphone)
Soundex是一种用于将英语单词转换为其发音相似的编码的算法。它主要用于在搜索和比较字符串时考虑单词的发音相似性。这样,通过Soundex算法,不同的单词可以映射到相同的编码,从而实现发音相似的字符串匹配。现在,您可以调用方法来对单词进行Soundex编码。在上述示例中,我们将单词"Hello"进行Soundex编码,得到的编码结果为"H400"。这个编码可以用于在搜索或比较字符串时考虑单词的发音相似性。需要注意的是,Soundex算法是一种近似的编码算法,它基于发音规则而不是实际的字母顺序。原创 2023-06-25 15:53:19 · 294 阅读 · 0 评论 -
2.04_基于矩阵分解的协同过滤推荐
刚才提到的Traditional SVD首先需要填充矩阵,然后再进行分解降维,同时存在计算复杂度高的问题,因为要分解成3个矩阵,所以后来提出了Funk SVD的方法,它不在将矩阵分解为3个矩阵,而是分解为2个用户-隐含特征,项目-隐含特征的矩阵,Funk SVD也被称为最原始的LFM模型。如果想运用SVD分解的话,有一个前提是要求矩阵是稠密的,即矩阵里的元素要非空,否则就不能运用SVD分解。显示反馈指的用户的评分这样的行为,隐式反馈指用户的浏览记录、购买记录、收听记录等。原创 2023-06-16 20:02:45 · 240 阅读 · 0 评论 -
2.3基于回归模型的协同过滤推荐
如果我们将评分看作是一个连续的值而不是离散的值,那么就可以借助线性回归思想来预测目标用户对某物品的评分。其中一种实现策略被称为Baseline(基准预测)。原创 2023-06-16 20:00:19 · 472 阅读 · 0 评论 -
02_基于K最近邻的协同过滤推荐
基于K最近邻的协同过滤推荐其实本质上就是MemoryBased CF,只不过在选取近邻的时候,加上K最近邻的限制。但由于我们的原始数据较少,这里我们的KNN方法的效果会比纯粹的MemoryBasedCF要差。这里我们直接根据MemoryBased CF的代码实现。原创 2023-06-16 17:05:23 · 133 阅读 · 0 评论 -
案例--算法实现:Item-Based CF 预测评分
利用原始评分矩阵、以及物品间两两相似度,预测指定用户对指定物品的评分。如果无法预测,则抛出异常。原创 2023-06-16 16:56:15 · 203 阅读 · 0 评论 -
案例--算法实现:User-Based CF 预测评分
【代码】案例--算法实现:User-Based CF 预测评分。原创 2023-06-16 16:55:43 · 237 阅读 · 0 评论 -
杰卡德相似度(Jaccard similarity)
杰卡德相似度(Jaccard Similarity)也称为杰卡德指数(Jaccard Index),由 Paul Jaccard 于 1901 年提出,用于度量两个集合数据的相似性。在图中,收集节点的邻居节点作为邻居集合,两个节点的邻居集合越相似,这两个节点就越相似。杰卡德相似度的取值范围 0 到 1;1 意味着两个集合完全一样,0 意味着两个集合没有任何共同元素。原创 2023-06-08 21:46:50 · 3092 阅读 · 0 评论 -
什么叫相似性度量?
选择适当的相似性度量对于正确地比较和分类数据非常重要,它可以影响到算法的准确性和性能。编辑距离(Edit Distance):编辑距离用于比较两个字符串之间的相似性,通过计算将一个字符串转换为另一个字符串所需的最小操作次数(如插入、删除、替换)。曼哈顿距离(Manhattan Distance):曼哈顿距离是计算两个向量之间的城市街区距离,也称为L1距离。余弦相似度(Cosine Similarity):余弦相似度衡量了两个向量之间的夹角,而不是它们之间的绝对距离。它衡量了两个向量之间的差异程度。原创 2023-05-22 17:14:59 · 466 阅读 · 0 评论 -
MyEmail_NB
【代码】MyEmail_NB。原创 2023-05-21 16:17:01 · 695 阅读 · 0 评论
分享