- 博客(23)
- 资源 (19)
- 收藏
- 关注
转载 《推荐系统》基于标签的用户推荐系统
1:联系用户兴趣和物品的方式2:标签系统的典型代表3:用户如何打标签4:基于标签的推荐系统5:算法的改进6:标签推荐源代码查看地址:github查看一:联系用户兴趣和物品的方式 推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。
2017-05-29 11:27:06 13159 1
转载 Spark DataFrame入门教程
DataFrame是Spark推荐的统一结构化数据接口,基于DataFrame快速实现结构化数据的分析,详细使用教程在https://spark.apache.org/docs/latest/sql-programming-guide.html使用创建SparkQL的上下文。from pyspark.sqlimportSQLContextsqlContext = S
2017-05-20 13:29:29 1087
转载 Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入
问题导读1.DataFrame是什么?2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame?4.如何使用DataFrame?5.在1.3.0中,提供了哪些完整的数据写入支持API?自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒,继续
2017-05-20 13:28:19 1527 1
转载 Spark2加载保存文件,数据文件转换成数据框dataframe
hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao-rw-r--r--
2017-05-20 13:27:20 2005 1
转载 如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题
原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。其结果就是一个存下来的文件,其实是hdfs中一个目录,在这个目录下才是众多partition对应的文件,最坏的情况是出现好多size为0的文件。如果确实想避免小文件,可以在save之前把DaraFrame的partition设为0:
2017-05-20 13:20:58 3553
转载 RDD,DataFrame与DataSet区别
1.RDD与DataFrame的区别下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。
2017-05-20 12:54:42 734
转载 spark dataframe和dataSet用电影点评数据实战
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCDataFrameDataFrame引入了sche
2017-05-20 09:49:07 1643 1
转载 Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析
Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析package com.dt.spark.coresimport org.apache.spark.{SparkConf, SparkContext}object Movie_Users_Analyzer {def main (args:Array[St
2017-05-20 09:27:43 1233
转载 用户体验优化事半功倍:如何绘制客户行为轨迹图
触脉导读:要做有效的客户分析,首先要了解客户行为。客户浏览行为轨迹图就是客户从产生购买意识,直至使用了产品或者服务的全部过程的具体展现。我们可以利用客户行为轨迹数据来了解客户浏览的阶段、细节、客户接触点以及对其进行量化分析,并制定出没一个阶段的度量标准。在研究客户行为轨迹过程中,还可以将整个过程划分为一连串的主要步骤,这样可以让你了解到关于客户行为轨迹的细节信息。接下来要做的就
2017-05-09 10:11:12 8616 2
转载 搜狐DMP全线升级 助力广告主锁定精众用户
搜狐DMP依托于搜狐,拥有搜狐网PC端、手机搜狐网、搜狐新闻客户端三端以及搜狐视频、千帆直播、56视频等搜狐旗下全产品矩阵的用户数据,是业内少有的可以覆盖视频、新闻、游戏、直播等多种业务形态的数据管理平台,可以覆盖到90%的中国网民。因而搜狐DMP可以将搜狐所有产品矩阵内的数据打通,将用户在各平台内的行为轨迹进行串联,通过数据管理平台来深入的挖掘,为广告主提供更加完整的行为链分析与更具情境化的用户
2017-05-09 10:06:57 828
转载 spark saveAsTextFile
当我运行完一个Spark程序想把结果保存为saveAsTextFile, 结果使用Hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part,好几千个。 原因: 运行Spark的时候把数据分成了很多份(partition),每个partition都把自己的数据保存在partxxx文件夹。 如果想保存为一份的话,就要: 先collect 或
2017-05-08 10:45:11 1840 1
转载 从零开始,手把手教会你5分钟用SPARK对PM2.5数据进行分析
要从零开始,五分钟做完一个基于SPARK的PM2.5分析项目,你是不是会问1. PM2.5的数据在哪里?2. SPARK的环境哪儿有?3. 程序怎么编?不用急,跟着我做,5分钟就可以从零开始完成所有的事情。准备SPARK环境今天,在各种公有云都可能申请到SPARK的环境。但彻底免费,启动最容易的是在超能云(SuperVessel)上面的SPARK服务,完全免费。
2017-05-07 16:02:30 1906
转载 Spark API 详解/大白话解释 之 reduce、reduceByKey
reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。val c = sc.parallelize(1 to 10)c.reduce((x, y) => x + y)//结果551212具体过程,RDD
2017-05-07 15:48:27 2771
转载 spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
例子描述:有个网站访问日志,有4个字段:(用户id,用户名,访问次数,访问网站)需要统计:1.用户的访问总次数去重2.用户一共访问了多少种不同的网站这里用sql很好写select id,name,count(distinct url) from table group by id,name其实这个题目是继官方和各种地方讲解聚合函数(agg
2017-05-07 11:01:33 701
转载 spark【例子】同类合并、计算2
spark【例子】同类合并、计算2例子描述:大概意思为,统计用户使用app的次数排名原始数据:000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E:62:20,15097003,,2016/6/8 17:10,2016/6/8 17:10,690,6218,11=0|12=200,2016/7/5 11:11
2017-05-07 10:20:56 480
转载 spark数据分析之ip归属地查询
前一段时间,在项目中,领导要求实时查看来自各个省份的ip访问的详情,根据这一需求,通过flume/logstack实时采集nginx的日志到生产到kafka,再通过Spark实时消费分析保存到Redis/MySQL中,最后前端通过百度的echart图实时的显示出来。 首先,得有一份ip归属地的规则表,可以本地的文档,也可以是分布式的在多台机器上的(如hdfs)。 ip规则表部分如下:1
2017-05-07 10:11:20 2387 4
转载 用sparkstreaming按天计算地区销售额简单模版
producer端:import java.util.HashMapimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming._
2017-05-07 10:03:00 843
转载 基于Spark实时计算商品关注度
基于Spark实时计算商品关注度一、实验介绍1.1 内容简介处于网络时代的我们,随着 O2O 的营销模式的流行,越来越多的人开始做起了电商。与此同时也产生了许多网络数据,然而这些数据有什么用呢。比如说一个电商公司可以根据一个商品被用户点击了多少次,用户停留时间是多久,用户是否收藏了该商品。这些都是可以被记录下来的。通过这些数据我们就能分析出这段时间内哪些商品最受普遍人们的关
2017-05-07 10:00:19 1467 2
转载 Spark Idea Maven 开发环境搭建
Spark Idea Maven 开发环境搭建一、安装jdkjdk版本最好是1.7以上,设置好环境变量,安装过程,略。二、安装Maven我选择的Maven版本是3.3.3,安装过程,略。编辑Maven安装目录conf/settings.xml文件,?12D:\maven-repository\reposit
2017-05-05 17:50:56 1007
转载 基于IntelliJ IDEA开发Spark的Maven项目——Scala语言
基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2016,IDEA工具越来越被大家认可,开发Java,Python ,sc
2017-05-05 17:44:44 3339
转载 IDEA打包jar包的多种方式
本篇文章总结出用IDEA打包jar包的多种方式。项目打包Jar包可以参考如下形式:用IDEA自带的打包形式;用Maven插件maven-shade-plugin打包;用Maven插件maven-assembly-plugin打包。下面跟着小编一起来看下吧这里总结出用IDEA打包jar包的多种方式,以后的项目打包Jar包可以参考如下形式:用IDEA自带的打包形式用
2017-05-05 17:42:56 11216
原创 Hadoop HA 模式下运行spark 程序
(1)将Hadoop的hdfs-site.xml 和core-site.xml文件复制到spark/conf目录下 (2)追加如下内容到 spark-defaults.conf文件spark.files file:///home/hadoop/spark/conf/hdfs-site.xml,file:///home/hadoop/spark/
2017-05-04 14:44:36 1012 2
2018年数据可视化的8大趋势
2018-01-10
Kafka核心原理与实战(并不是原书,请看描述和评论下载)
2018-01-10
《开源》200801.pdf
2008-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人