Spark
文章平均质量分 84
wangli0519
这个作者很懒,什么都没留下…
展开
-
Spark应用——网络服务器日志分析
这里我们展示如何使用Spark来分析网络服务器日志。服务器日志是富含信息的通用大数据。Spark提供了能快速简便执行这类数据分析的工具。日志数据可以来自多个源,如网络、文件、计算机服务器、应用日志、用户产生的内容,并可以用于监视服务器、改善商业和客户信息、构建推荐系统、欺诈侦测以及更多的应用。首先我们需要载入一些会用到的库import reimport datetimefrom d原创 2017-06-22 09:32:16 · 1830 阅读 · 1 评论 -
Spark应用 —— 快速构建用户推荐系统
大数据一个重要的应用是预测用户喜好,例如相关广告的推送、相关产品的推荐、相关图书电影的推荐等。这里我们使用Spark的机器学习来展示如何进行预测。找到文件import osfrom databricks_test_helper import Testdbfs_dir = '...'ratings_filename = dbfs_dir + '/ratings.csv'movies原创 2017-06-23 09:10:41 · 849 阅读 · 1 评论 -
Spark应用——进行字数统计
非结构性的文本数据在数据分析中越来越重要,Spark是分析这类型数据一个优秀的工具。这里我们构建一个简单的计数应用来统计莎士比亚全集中的高频词。该应用可以被扩展到更大规模的应用,例如统计维基百科中的高频词。我们首先用python的元组列表和sqlContext.createDataFrame方法来构建数据结构,然后打印它的类型和架构。wordsDF = sqlContext.createD原创 2017-06-21 09:00:27 · 2681 阅读 · 1 评论 -
Spark流计算(一)
Spark流计算是Spark核心API的扩展,能为数据流提供可扩展的、高吞吐量、容错的流处理。数据可从多个源输入如Kafka,Flume,Kinesis,或TCP接口,能够使用高层函数的复杂算法来处理如map, reduce, join和window。最后,经处理的数据可推送到文件系统、数据库和面板。事实上,也可以对数据流应用Spark的机器学习和图计算算法。在内部,Spark S翻译 2017-06-16 09:32:53 · 2239 阅读 · 0 评论 -
Spark流计算(二)
连接与Spark相似,Spark Streaming可通过Maven Central获得。需要加入如下依赖 org.apache.spark spark-streaming_2.11 2.1.1对于处理来自Kafka,Flume和Kinesis的数据,由于它们不在Spark Streaming核心API中,我们需要加入相应的依赖,例如Source Art翻译 2017-06-16 15:38:31 · 625 阅读 · 0 评论 -
Spark流计算(三)
DStreams转化与RDDs相似,转化允许DStream输入的数据被修改。DStreams支持很多在一般Spark RDD中的转化,一些常用的如下:map(func)flatMap(func)filter(func)repartition(numPartitions)union(otherStream)count()reduce(func)countByVal翻译 2017-06-16 20:21:48 · 479 阅读 · 0 评论 -
Spark流计算(四)
DataFrame和SQL操作可以方便的对刘数据使用DataFrame和SQL操作。在 StreamingContext使用的SparkContext构建一个SparkSession。这样driver失败时可以重启。下面的例子对此前的word count例子进行了修改,使用DataFrames和SQL来对词进行计数。每一个RDD转化成一个DataFrame,登记为临时表格并用SQL查询。#翻译 2017-06-17 15:42:06 · 670 阅读 · 0 评论 -
Spark图计算(一)
GraphX是Spark新的组成部分,主要用于图和图的并行计算。在高层,GraphX扩展了Spark RDD,引入新的图抽象:一个属性依附于点和边的有向多图。为支持图计算,GraphX提供一系列基本运算(例如子图、结合点和聚合消息)并优化了Pregel API的变体。此外,GraphX包含了一组图算法和构建器以简化图分析任务。首先需要在项目中载入Spark和GraphX:import or翻译 2017-06-19 19:33:27 · 1905 阅读 · 0 评论 -
Spark图计算(二)
图操作如同RDDs有如同map,filter和reduceByKey这些基本操作,属性图也有一些基本操作可以接受用户自定义函数转化属性和结构从而生成新图。优化应用的核心操作定义在Graph中,简便操作是核心的集合并定义在GraphOps中。由于Scala的隐式性GraphOps中的操作可自动的在Graph中获得。例如我们可以计算每个点(定义在GraphOps)的入度如下:val graph翻译 2017-06-20 10:03:21 · 718 阅读 · 0 评论 -
Spark应用 —— 文本分析
实体解析在数据清理和融合中是一个普遍但困难的问题。这里我们将展示如何使用Spark来进行强大可扩展的文本分析技巧并执行跨数据集的实体解析。被用来描述结合来自不同数据源的记录表述同一实体的过程,另外一些常用的说法有实体连接、重复侦测、记录匹配、对象识别、数据融合等等。它指在数据集中找到跨不同数据源(例如数据文件、图书、网站、数据库)的同一实体的记录。这里我们要处理来自两个不同数据库的记录,其中A原创 2017-06-24 10:44:36 · 1261 阅读 · 1 评论