![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据技术与算法
文章平均质量分 86
大数据技术与算法
梦想总是要不可及,是不是应该放弃
大数据、算法与数据结构
展开
-
HDFS学习总结----面试必须掌握
为什么要用HDFS一台服务器存不下数据,需要多台服务器。多台服务器上的数据需要一个系统来组织和管理。tip:HDFS、NTFS是不同的文件管理系统HDFS的定义HDFS是一个分布式的文件系统,通过目录树来定位文件HDS的使用场景一次写入,多次读出,不支持文件的修改,并且数据读取慢适合做数据分析的存储优点高容错自动保存多个副本,当节点数足够的时候,会自动保持副本份数。如10个节点,3个副本,一台挂掉,那么这台节点上的数据会被转存到其他节点,保证副本份数。适合做大数据,原创 2020-07-22 20:54:17 · 776 阅读 · 0 评论 -
Intellij IDEA开发环境搭建,scala配置及打包,jar包在spark中的运行
Intellij IDEA开发环境搭建,scala配置及打包,jar包在spark中的运行转载 2018-12-14 12:04:02 · 344 阅读 · 0 评论 -
Celery: 分布式任务队列框架
Celery是一种分布式消息队列处理框架,由Python编写而成。该框架是一个典型的生产者-消费者模型。一、一些术语与概念下面,了解几个关键术语,并对应到生产者-消费者模型中的一些概念。broker,存放消息队列的容器,Celery本身不提供这个容器,一般由RabbitMQ、redis等第三方消息队列机制提供。tasks,一般写在一个脚本中,作用相当于生产者,用于产生消息。wo...原创 2018-09-04 10:55:02 · 995 阅读 · 0 评论 -
Spark Streaming: 实时流式数据处理机制(1)
一、基本原理Spark Streaming是一种实时流式数据处理机制,用于实时处理实时产生的数据流,具有高吞吐量、容错等特点。Spark Streaming构架如下图:数据源可以是本地数据、HDFS、TCP socket、Kafka和Flume等等,Spark Streaming从数据源接收数据流,根据时间片将数据流分割成多个批,分批处理,并将处理结果输出到文件系统、数据库或屏幕。...原创 2018-08-29 17:34:23 · 5527 阅读 · 0 评论 -
数据挖掘十大算法(九):朴素贝叶斯原理、实例与Python实现
一、条件概率的定义与贝叶斯公式二、朴素贝叶斯分类算法朴素贝叶斯是一种有监督的分类算法,可以进行二分类,或者多分类。一个数据集实例如下图所示:现在有一个新的样本,X = (年龄:<=30, 收入:中, 是否学生:是, 信誉:中),目标是利用朴素贝叶斯分类来进行分类。假设类别为C(c1=是 或 c2=否),那么我们的目标是求出P(c1|X)和P(c2|X),比较谁更大,那么...原创 2018-07-27 15:45:49 · 12180 阅读 · 16 评论 -
数据挖掘十大算法(六):PageRank算法原理与Python实现
参考.PageRank算法--从原理到实现 零. PageRank算法简介PageRank算法,即网页排名算法,由Google创始人Larry Page在斯坦福上学的时候提出来的。该算法用于对网页进行排名,排名高的网页表示该网页被访问的概率高。该算法的主要思想有两点:a. 如果多个网页指向某个网页A,则网页A的排名较高。b. 如果排名高A的网页指向某个网页B,则网页B的...原创 2018-07-06 09:59:28 · 31773 阅读 · 21 评论 -
数据挖掘十大算法(二):K-means聚类算法原理与实现
参考:1.机器学习-KMeans聚类 K值以及初始类簇中心点的选取2.K-Means算法的研究分析及改进一、K-means算法原理K-means算法是最常用的一种聚类算法。算法的输入为一个样本集(或者称为点集),通过该算法可以将样本进行聚类,具有相似特征的样本聚为一类。针对每个点,计算这个点距离所有中心点最近的那个中心点,然后将这个点归为这个中心点代表的簇。一次迭代结束之后,针对每个簇类,重新计算...原创 2018-07-12 19:17:50 · 70042 阅读 · 8 评论 -
常用PySpark API(二): partitionBy, cache, mapValues, sortBy的简单用法
0. PairRDD的意思PairRDD就是元素为键值对的List转化过来的RDD对象,例如rdd_1就是一般的非pairRDD,rdd_2为pairRDD,这只是一种叫法原创 2018-07-04 14:40:14 · 10319 阅读 · 0 评论 -
数据挖掘十大算法(一):决策树分类C4.5算法
一、决策树分类的思想如下图所示,为一个待训练的数据集/训练集,表示一个人具备年龄、收入、是否学生、信誉这4个属性,待训练的目标是这个人是否购买计算机。其中年龄、收入、是否学生、信誉被称作描述属性,是否购买计算机称作类别属性,即分为什么类别。为了理解什么叫决策树,我们直接跳到结果(利用上述数据集,得到的决策树),决策树如下图:这个决策树的含义,类似于一个程序判断框图,输入一个人的属性值4元组:(年龄...原创 2018-07-11 09:51:26 · 4732 阅读 · 0 评论 -
常用PySpark API(一): parallelize, collect, map, reduce等API的简单用法
参考:1. https://www.cnblogs.com/sharpxiajun/p/5506822.html2. https://blog.csdn.net/wc781708249/article/details/782281170. RDD数据类型RDD(Resilient Distributed DataSet)是一种弹性分布式数据集,是Spark的核心,其可以有由稳定存储中的数据通过转换...原创 2018-07-03 16:12:56 · 27497 阅读 · 6 评论 -
数据挖掘十大算法(三):SVM支持向量机[初步]
支持向量机(Support Vector Machine, SVM)算法,是一种用于二分类的分类算法,当然也可以用于回归,文本仅讲述支持向量分类器(Support Vector Classifier, SVC)。根据数据集的不同,SVM可以分为三类:线性可分SVM、线性不可分SVM和非线性SVM。一、什么是SVM如下图所示,是一个训练集(二维平面上的点集),其中黑色为正例,红色点为负例,这是他们的...原创 2018-07-16 13:53:43 · 1511 阅读 · 0 评论