大数据分析
文章平均质量分 93
大数据分析相关的基础知识,对机器学习算法的解释
基于spark+jupyter Notebook
Chahot
合抱之木,生于毫末;九层之台,起于累土;驽马十驾,终至千里。
展开
-
Spark在大数据分析中的处理原理与标准分析模型
@TOCSpark大数据正在从根本上改变组织和企业的运营和竞争方式。大数据和物联网也共享紧密相连的未来,提供数据驱动的分析和洞察力。Dataframe:Spark中的DataFrame表示组织在命名列[33]中的分布式数据集合。DataFrame在概念上相当于关系数据库中的一个表、R或Python的Panda DataFrame中的数据帧,但对Spark引擎进行了额外的优化。DataFrames支持并可以从广泛的来源构建,包括结构化数据文件,Hive表,JSON、Parquet、外部数据库、HDFS原创 2021-11-04 14:51:04 · 1235 阅读 · 0 评论 -
【大数据分析】Ch.6:GraphX of Spark & Network Science
本章讨论的网络不是通信中的网络,而是由节点和连接线构成的网络。Practice配置命令:原创 2020-10-15 10:27:50 · 320 阅读 · 0 评论 -
【大数据分析】Ch.5:潜在语义分析·LSA(Latent Semantic Analysis)
本章的内容是对自然语言的分析,并非单纯数与字符的统计,而是尝试去理解人类的语言描述概念。自然语言通常是指一种自然地随文化演化的语言。例如,汉语、英语、日语为自然语言的例子,这一种用法可见于自然语言处理一词中。LSA(Latent Semantic Analysis)LSA:一种分析自然语言并根据潜在本意进行统计性处理的算法。其核心思想如下:如果我们能制作一个表格,这个表格统计着每个单词对于每个文档的重要程度,当我们试图去分析某一篇具体的文章我们就可以通过表格来直观看到关于这篇文章的核心论点,我们就能原创 2020-10-10 15:51:12 · 701 阅读 · 0 评论 -
【大数据分析】Ch.4:无监督学习& K-means Algorithm
无监督学习[Unsupervised Learning]输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。非监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分原创 2020-09-29 16:44:44 · 879 阅读 · 0 评论 -
【大数据分析】Ch.3:决策树预测森林覆盖
决策树我们喝牛奶时的思考过程就是决策树的一种,通过不同的条件分支生成不断的结果,而结果又有新的条件分支生成新的结果……上面的例子是:#mermaid-svg-VXPS0Ud9mj6k6wZC .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-VXPS0Ud9mj6k6wZC .label text{fill原创 2020-09-26 12:53:55 · 2599 阅读 · 0 评论 -
【大数据分析】Ch.2:监督学习&协作过滤
Supervised Learning[监督学习]即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。Regression回归:用于预测一个值,预测的结果往往是连续的。预测与实际结果一般会有偏差,偏差越小,我们认为这个回归分析越好。回归是对真实值的一种逼近预测。图中的每一点x对应某地区的房子大小与价格的关系,房价与原创 2020-09-17 16:08:47 · 1263 阅读 · 2 评论 -
【大数据分析】Ch.1:搭建Spark-Jupyter Notebook实验环境 & 介绍Scala语言
本章目录搭建实验环境Docker&Jupyter NotebookScalaScala语言模式Spark实验搭建实验环境Docker&Jupyter Notebook由于大数据分析过程中,操作系统OS的或应用程序不同都会导致分析出的结果不一样,为了方便实验过程中校验正确性,统一搭建某种环境更为方便合理。Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows 机器上,也可以实现虚拟化。容器是完全使原创 2020-09-09 09:10:57 · 1155 阅读 · 0 评论 -
【大数据分析】Ch.0:Advanced Analytics with Spark
课程概述介绍如何使用Spark分析大数据介绍Spark和Scala中数据处理的基础知识本课程结束时,学生应能够:了解大数据和大数据分析的概念理解Spark和Scala的基本知识应用机器学习方法分析Spark中的大数据讲座材料:Sandy Ryza, “Advanced Analytics with Spark”, 2ndedition,O’REILLY,2017学习流程:基础知识科普 + 运行代码并进行分析(运行时间、运行结果等)学习目标:了解大数据分析的过程,体会大数据分析的意义原创 2020-09-01 18:06:09 · 2117 阅读 · 0 评论