spark
just-do-it-zzj
有人经常说:选择比努力更重要,可是如果你不努力,哪里有选择的机会。
展开
-
[机器学习]协同过滤算法的原理和基于Spark 实例
目录协同过滤协同过滤的类型协同过滤的评价方法冷启动问题Spark中协同过滤算法的实现方式协同过滤协同过滤,简称CF算法是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。协同过滤常被应用于推荐系统。这些技术旨在补充用户—商品关联矩阵中所缺失的部分。其中用户和物品由一小部分已知因素描述,用这些因素可以预测缺失值。协同过滤的类型在基于用户的协同过滤(User CF )方法的中,如果两个用户表现出相似.原创 2020-12-30 16:45:41 · 1058 阅读 · 0 评论 -
[机器学习]关联挖掘算法Apriori和FP-Growth以及基于Spark 实例
目录Apriori 算法FP-Growth算法算法原理步骤1 统计各个商品被购买的频次步骤2 构建FP树步骤3 频繁项的挖掘阅读本文需要了解关联挖掘的基本知识,了解关联挖掘的基本原理,参考《[机器学习]关联挖掘介绍》。Apriori 算法Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合.记做L1,L1用于找出频繁2-项集的集合L2,再用于找出L3,...原创 2020-12-24 10:04:27 · 709 阅读 · 0 评论 -
[Spark]Spark常用的优化方法
目录优化目的Spark-core的优化Yarn 模式下动态资源调度Shuffle阶段调优MapPartitions分区替换map计算结果使用foreachPartitions替代foreach设置num-executors参数设置executor-memory参数设置executor-cores注意Collect的使用使用reduceByKey替换groupByKey数据倾斜将HDFS上的文本格式数据转换为Parquet格式数据Spark-sql.原创 2020-12-23 09:03:50 · 7763 阅读 · 1 评论 -
[机器学习]朴素贝叶斯原理和基于Spark 实例
朴素贝叶斯分类贝叶斯原理的由来:贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在缺乏太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。逆向概率:逆向概率是相对正向概率而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。这是在了解了事情的全貌再做判断。在现实生活中,我们很难知道事情的全貌。贝叶斯则从实际场景出发,提了一个问题:如果我们事先不知道袋子里面黑球和白球的比例,而是通过我原创 2020-11-30 09:56:10 · 483 阅读 · 0 评论 -
[spark]Spark2.4.6用put写入写入Hbase1.3.1
场景:数据较少,用put写入public void writeHbaseWithSpark() throws Exception {SparkSession spark = SparkSession.builder() .appName("mytest1") .master("local") .getOrCreate(); JavaSparkContext javaSparkContext = new JavaSparkContext(spa原创 2020-07-25 17:56:02 · 445 阅读 · 0 评论 -
[spark]Spark2.4.6用bulkload写入Hbase1.3.1表的多列
目录1.创建Hbase表2.测试数据文件 test2.txt3. Spark2.4.6用 bulkload写入Hbase1.3.1批量写入的优势:不使用预写日志(WAL),不会出现flush和split 更少的垃圾回收处理流程:流程:把外部数据导入HDFS 用spark 把数据处理成hbase的文件hfile所需格式,保存入hdfs 调用spark on hbase 的bulkLoad api 加载入hbase 目标表1.创建Hbase表create...原创 2020-07-25 17:47:45 · 513 阅读 · 1 评论 -
maven 把依赖包一起打包
<!-- 打包插件 --> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>2.4</version> ...原创 2019-12-24 17:12:24 · 742 阅读 · 0 评论