- 博客(6)
- 收藏
- 关注
原创 决策树梳理
决策树概述决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进...
2019-05-17 20:51:19
207
原创 关于机器学习初级算法梳理
关于机器学习初级算法梳理一.机器学习术语机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对位置或无法观测的数据进行预测。学习:针对经验E (experience) 和一系列的任务 T (tasks)和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。样本数据就是的(x,y),其...
2019-05-12 20:53:30
252
原创 Numpy学习笔记
一.Numpy的作用机器学习模型:在编写机器学习算法时,需要对矩阵进行各种数值计算。例如矩阵乘法、换位、加法等。NumPy提供了一个非常好的库,用于简单(在编写代码方面)和快速(在速度方面)计算。NumPy数组用于存储训练数据和机器学习模型的参数。图像处理和计算机图形学:计算机中的图像表示为多维数字数组。NumPy成为同样情况下最自然的选择。实际上,NumPy提供了一些优秀的库函数来快速处理图...
2019-04-06 19:40:31
207
原创 Ambari HDP 最新版本本地安装说明
说明 :root用户 内网ip 服务器能访问外网服务器:安装的时候使用内网ip,下载的时候使用外网ipHostname 外网IP 内网IPmyha01 62.234.185.97 172.21.0.12myha02 62.234.222.204 172.21.0.10myha03 62.234.216.21 172.21.0.14备注:集群内部使用内网IP操作系统:CentOS L...
2019-03-17 23:40:31
4477
3
原创 kafkaProducer 1.1 读取文件目录文件,发送到kafka Topic
package domain;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;import java.io.*;im...
2018-12-20 13:52:08
3312
原创 SparkCore和MapReduce运行效率比较/Spark运行较快原因
spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别 (1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘 (2)Spark容错性高,它通过...
2018-09-14 17:35:55
4121
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人