大数据
文章平均质量分 50
Together_CZ
欲戴其冠,必承其重
展开
-
使用 Kubernetes 和 Kubeflow 扩展对象检测
介绍 对象检测是计算机视觉中的一项关键任务,涉及对图像或视频中的对象(例如行人或汽车)进行定位和分类。机器学习的进步导致对象检测应用取得重大突破,从流行社交网络中的人脸检测到自动驾驶汽车的感知。过去,大规模训练和部署这些模型需要大量的手动工作和手动滚动解决方案。然而,随着 Kubernetes* 和 Kubeflow 等云平台和协调器的兴起,机器学习模型的训练、服务和扩展过程变得不那么复杂,而且更具声明性。Kubernetes 和 Kubeflow Kubernet...翻译 2021-12-01 21:14:33 · 320 阅读 · 0 评论 -
Ubuntu16.04下Hadoop+Hive+HBase安装部署实践
之前断断续续搞过一些Hadoop生态的学习和小实践,现在有这个需要了就重新捡起来了,但是机器上没有这套环境需要重新安装一下,其实本质上来说在Linux下安装很多框架或者是系统并不麻烦,大多都是解压缩,改一些配置文件,然后配置一下对应的环境变量最终source使其生效就可以了。 最近需要使用到HBase数据库,HBase数据库要依赖Hadoop,我们选择使用MySQL作为Hive的元数据,所以在安装配置Hive之前需要安装好Hadoop和MySQL才可以。 为了方便使用,我将自...原创 2020-09-08 11:22:54 · 970 阅读 · 2 评论 -
感知器算法超详细讲解实战【原理+手撸代码实现】+spark应用实践
声明:本博客中的VIP系列博客内容严禁转载,未经允许不得以任何形式进行传播,违者追究侵权责任! 感知器算法超详细讲解实战+spark简单应用 ...原创 2019-08-18 11:56:03 · 1585 阅读 · 0 评论 -
常用SQL查询语句整理笔记【持续更新】
常用SQL查询语句整理笔记查询表所有数据 SELECT * FROM myTable查询指定学号学生的信息 SELECT * FROM myTable WHERE studentId=‘001’IN关键字查询 SELECT name,age,height FROM myTable WHERE studentId in (‘001’,‘002’,‘003’)LIKE关键词模糊查询 ...原创 2019-06-11 15:47:29 · 1013 阅读 · 0 评论 -
pyspark分类算法之多层感知机神经网络分类器模型实践【MLPClassifier】
继上文的集成学习模型之后,本文实践使用的pyspark提供的多层感知机神经网络模型,这是一种比较简单但是却又很重要的神经网络模型。MLP是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被...原创 2019-06-21 10:01:22 · 4304 阅读 · 2 评论 -
pyspark分类算法之梯度提升决策树分类器模型GBDT实践【gradientBoostedTreeClassifier】
本文紧接上文的随机森林分类器模型,实践的同样是分类算法模型,随机森林模型和GBDT模型是机器学习领域里面非常重要的两种集成学习模型,两种模型虽然均采用了集成策略来进一步提升基分类器模型的性能,但是本质上是有区别的,前者采用并行的训练方式,后者采用的是串行的训练方式。同样,下面贴一下自己学习pyspark以来的记录笔记,具体如下: pyspark顾名思...原创 2019-06-21 09:06:28 · 2571 阅读 · 0 评论 -
pyspark分类算法之随机森林分类器模型实践【randomForestClassifier】
本文紧接上文的决策树分类器模型,实践的同样是分类算法模型,随机森林模型可以简单理解为集成的决策树模型,实质上随机森林模型的设计思想也的确如此,它采用了一种投票的思想来完成了模型最终的决策,将多个弱分类器模型进行集成,来达到提升基分类器模型性能的效果。同样,下面贴一下自己学习pyspark以来的记录笔记,具体如下: pyspark顾名思义就是由pytho...原创 2019-06-20 19:55:10 · 4708 阅读 · 1 评论 -
pyspark连接MySQL数据库,执行SQL语句,返回数据查询结果
在日常的工作中,MySQL和SQLServer是经常使用到的两种数据库,直接连接使用的话是很简单的,如果说需要基于pyspark做连接工具,进行相应的数据查询操作的话就会复杂一点,今天简单的基于pyspark模块实现了连接MySQL数据库,执行给定的查询语句,返回查询结果数据。 接下来简单的说一点自己学习使用pyspark以来的记录学习,具体如下:py...原创 2019-06-13 15:09:49 · 4193 阅读 · 0 评论 -
pyspark分类算法之决策树分类器模型实践【decisionTreeClassifier】
本文紧接上文的逻辑回归分类器模型,实践的同样是分类算法模型,决策树模型是机器学习领域中简单却又强悍,可解释程度很高的一种模型,之前较多使用的库是sklearn,这里面提供了绝大多数机器学习模型的实现和应用方法,很nice的,现在要基于spark来完成决策树模型的简单使用,同样是依托于官方提供的实例,在完整地理解透彻之后,才会进行自己的设计与改造,这是我一般的学习思路。 ...原创 2019-06-13 09:25:12 · 4617 阅读 · 0 评论 -
pyspark分类算法之逻辑回归模型实践【binomialLogisticRegression+multinomialLogisticRegression】
最近在使用pyspark来进行spark编程,之前对这个没有了解过,所以接下来需要多花点时间学习这个模块了,今天主要是简单地基于官方给出来实例来实践一下逻辑回归分类模型,pyspark提供的逻辑回归分类模型主要包括:二项逻辑回归和多项逻辑回归,各自有对应的适用场景。 pyspark顾名思义就是由python和spark组合使用的。Spark提供了一个Python_Shell,...原创 2019-06-12 16:21:19 · 3430 阅读 · 2 评论 -
pyspark解决报错“py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled ”
今天在使用pyspark的时候出现了一个错误,就是“py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled does not exist in the JVM”,这个错误之前也是遇到过的,但是没有记录下来具体怎么做的,只好去翻看之前的代码,查询到了具体的解决办法,具体解...原创 2019-05-21 10:59:42 · 18095 阅读 · 6 评论 -
Pyspark学习入门一:wordcount实例学习
最近的工作可能要向大数据平台转移了,所以学习当今主流的大数据处理平台Hadoop和Spark显得尤为重要了,经过一番折腾之后终于在本地的PC机上搭建了Spark的环境,平时最多使用的是python,Spark对python提供了Pyspark模块,能够方便地使用Spark,今天抽时间简单实践了一下,编写wordcount的小例子,之后有时间继续学习:#!usr/bin/env pyt...原创 2018-10-17 17:22:00 · 4330 阅读 · 2 评论 -
python实现CSV特征文件转化为libsvm特征文件输入spark中进行机器学习
今天早早地下班,闲来无事就继续鼓捣spark了,spark计算能力很强之外还有一个很强大的功能就是机器学习,借助于spark平台的高性能以及高计算能力,机器学习算法也被广泛地开发出来,今天在实际使用spark中提供的机器学习算法的时候遇到一个问题就是: 当前spark读取的都是libsvm格式的数据,我对于libsvm的了解,仅仅停留在他是台大开发出来的独立运行的svm工具而已,...原创 2018-10-19 20:36:08 · 5498 阅读 · 0 评论 -
Pyspark学习入门二:sort排序学习
接触到spark,才觉得很多东西并不是想象的那么简单的,不过这个并不能影响什么情绪,对于这个平台我还是很愿意多花点时间去学习熟悉一下的,忙里偷闲,找点时间,今天按照官方的API简单实践一下sort排序的内容,这些在我之前的博客里面有多很多讲解,都是借助python来原生态地实现的,这里是想用spark来做一下这个事情,主要包括两种,一种是读取数据文件进而对数据文件中的内容进行排序;另一种是...原创 2018-10-19 14:37:16 · 9592 阅读 · 0 评论