- 博客(12)
- 收藏
- 关注
原创 机器学习-基础概念
机器学习的研究目标是探索和开发一系列算法,使计算机能够通过数据来学习、建模,并利用建好的模型和新的输入来进行预测。模型的训练需要大量的数据,通过不断地优化模型参数和调整模型结构,可以提高模型的预测精度和泛化能力。训练好的模型可以用于新数据的预测和分类,帮助我们更好地理解数据的内在规律和做出正确的决策。机器学习中的模型是一个重要的概念,它不仅是机器学习的核心,也是实现人工智能的关键之一。模型的角度:模型复杂度过高,对训练数据拟合较好,但同时拟合了噪声或者与目标不相关的信息,导致泛化能力差。
2024-01-27 23:06:01 333 1
原创 机器学习-朴素贝叶斯
根据训练数据集,我们可以计算出垃圾邮件和非垃圾邮件的后验概率:P(垃圾邮件)=0.01(假设垃圾邮件在训练数据集中占1%)P(非垃圾邮件)=0.99(非垃圾邮件在训练数据集中占99%)然后,我们需要计算给定邮件属于垃圾邮件和非垃圾邮件的概率:P(邮件中包含“垃圾邮件”∣垃圾邮件)=0.8(假设80%的垃圾邮件中包含“垃圾邮件”这个词)P(邮件中包含“免费”∣垃圾邮件)=0.5(假设50%的垃圾邮件中包含“免费”这个词)
2024-01-27 22:54:07 1393
原创 [链表]LeetCode_234:回文链表
题目:思路:快慢指针找到中点根据中点进行反转反转后对比是否相同代码:public class PalindromeLinkedList_Code_234 { public class ListNode{ public int val; public ListNode next; public ListNode(int x){val = x;} } public boolean isPalindrome(Lis
2020-05-17 23:41:33 118
原创 Java JVM学习(一)——Java 虚拟机各内存区域概述
Java 虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域,有的区域随着虚拟机进程的启动而存在,有些区域则是依赖用户线程的启动和结束而建立和销毁。程序计数器:较小的内存空间,当前线程执行的字节码的行号指示器;各线程之间独立存储,互不影响字节码解释器通过改变程序计数器来依次读取指令,从而实现代码的流程控制,如:顺序执行、选择、循环、异常处理JVM 多线程是通过线...
2020-05-07 17:30:42 119
转载 算法学习-排序算法
堆排序堆排序是利用堆这种数据结构而设计的一种排序算法,堆结构是具有以下性质的完全二叉树:每个节点的值都大于或等于左右孩子节点的值,称为大根堆;或者每个节点的值都小于或等于其左右孩子的值,称为小根堆。堆排序的基本思想:将待排序列构造成一个大根堆,此时,整个序列的最大值就是堆顶的根节点。将其与末尾的元素进行交换,此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆,这样会得到n个元素的次小值...
2020-05-05 22:48:14 191
原创 Hive学习- 一些基础概念
Hive 是什么Hive 基于一个统一的查询分析层,通过SQL语句的方式对HDFS的数据进行查询、统计和分析Hive 是一个SQL解析引擎,将SQL语句转译成MR Job,然后在Hadoop平台上进行,达到快速开发的目的。Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。本质就是Hadoop的目录文件,达到了元数据与数据存储分离的目的Hive本身不存储数据,它完全依赖HDFS和M...
2020-04-25 15:56:34 221
原创 Hadoop学习-HDFS读写流程
HDFS 读流程客户端通过调用FileSystem对象的open()方法来打开读取的文件。DistributedFileSystem通过远程调用namenode,以确定文件起始块的位置。对于每一个块,namenode返回存有该块副本的datanode地址。这些datanode根据它们与客户端的距离来排序(根据集群的网络拓扑)。如果该客户端本身就是一个datanode,那么该客户端将会从保存...
2020-04-24 11:30:22 193
原创 Hadoop学习-关于 YARN 的一些概念
简介YARN (Yet Another Resource Negotiator,另一种资源调度器)是Hadoop的集群资源管理系统,最初被引入Hadoop 2,是为了改善mapreduce的实现,基本设计思想是将旧MR中的JobTracker 拆分重构,减少JobTracker 的负担,解决单点故障问题,提高资源利用率Hadoop 1.0 架构JobTracker 必须不断跟踪所有Ta...
2020-04-21 14:15:16 369
原创 Hadoop学习-关于MapReduce
MapReduce 是一种可用于数据处理的编程模型。MapReduce 任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都是以键-值对作为输入和输出。这些阶段任务运行在集群上的节点上,并通过YARN进行调度,如果一个任务失败,它将在另一个不同的节点上自动重新调度运行。MapReduce 程序本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。M...
2020-04-20 13:17:44 587
原创 Hadoop学习-分布式文件系统HDFS的一些概念
当数据集的大小超过一台独立的物理计算机的存储能力是,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed filesystem)。Hadoop 自带一个HDFS 的分布式文件系统,即 Hadoop Distributed Filesystem。HDFS 的设计超大文件 指的是具有几百MB、几百...
2020-04-19 08:55:55 302
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人