学习笔记
能不能多喝一点热水
这个作者很懒,什么都没留下…
展开
-
kafka基本操作
启动kafka bin/kafka-server-start.sh config/server.properties &创建消费者bin/kafka-console-consumer.sh --bootstrap-server 192.168.142.100:9092 --from-beginning --topic newTopic创建生产者bin/kafka-console-producer.sh --broker-list 192.168.142.100:9092 --topic原创 2020-07-15 18:21:28 · 156 阅读 · 0 评论 -
Flink学习笔记——Flink基础(一)
(1)IDEA 编写代码批处理WordCountpackage com.vip.wcimport org.apache.flink.api.scala._// 批处理代码object WordCount { def main(args: Array[String]): Unit = { // 创建一个批处理的执行环境 val env = ExecutionEnvi...原创 2020-01-05 19:25:05 · 239 阅读 · 0 评论 -
maven---Failed to read artifact descriptor for ch.qos.logback:jar的问题解决
使用idea创建maven项目时,并使用ch.qos.logback时,提示Failed to read artifact descriptor for ch.qos.logback:jar参考网上的办法:项目右键→如图点击open“settings.xml”,第一次点击为create“settings.xml”,如图,输入红框中的内容,切记mirrors mirror等自己手打,不要复...原创 2019-11-23 09:08:59 · 2578 阅读 · 0 评论 -
大数据实战(九)
1 分布式数据收集1.1 推荐系统数据收集需求推荐系统数据收集需求:将各种数据收集到一个中央化的存储系统中,有利于进行集中式的数据分析与数据共享用户行为数据是多样化的用户访问日志,产品信息,用户基本信息推荐系统数据收集难点:数据分散在各个离散的设备上,数据保存在传统的存储设备和系统中1.2 常见数据来源分散的数据源(由不同系统组件产生,部署在不同机器上):用户访问日志,用户...原创 2019-11-17 16:30:31 · 198 阅读 · 0 评论 -
大数据实战(八)
1、Spark推荐算法实战(IDEA)1.1 需求数据:MovieLens电影评分数据功能需求1.找出最受欢迎的50部电影,随机选择10部让用户即时评分,并给用户推荐50部电影算法要求1.通过ALS实现推荐模型2.调优模型参数,通过RMSE指标评估并筛选出最优模型2.创建基准线,确保最优模型高于基准线开发要求1.通过Idea本地开发测试2.提交到集群模式运行...原创 2019-11-16 15:08:27 · 137 阅读 · 0 评论 -
大数据实战(七)
1. Spark推荐算法实战1.1 Spark MLlib概述MLlib是基于Spark引擎实现的机器学习算法库良好的扩展性和容错性,充分利用Spark扩展性和容错性属于Spark生态系统重要的组成部分实现了大部分常用的数据挖掘算法:聚类,分类,推荐1.1.1 MLlib分类算法1.2 MLlib推荐算法介绍1.2.1 Spark协同过滤的实现1.2.2 MLlib协同...原创 2019-11-14 17:00:06 · 131 阅读 · 0 评论 -
大数据实战(六)
实例6:MovieLens推荐系统需求使用MovieLens 1M数据集实现电影推荐系统步骤实现MovieLens数据集的DataModel实现Item-based和User-based的协同过滤推荐,并保存结果基于物品的推荐处理文件package com.vip.example.MovieLens;import org.apache.commons.io.Charsets...原创 2019-11-13 22:14:23 · 131 阅读 · 0 评论 -
大数据实战(五)
1 推荐系统案例实践1.1 推荐案例实战准备1.1.1 操作系统的选择WindowsLinuxHadoop及Spark均支持windows环境,尤其是spark但通常Windows仅用于测试环境1.1.2 IDE选择Intellij IDEAEclipse1.1.3 项目管理工具SBT(Simple Build Tool)Spark等项目中使用sbt assem...原创 2019-11-11 15:26:20 · 172 阅读 · 0 评论 -
大数据实战(四)
1 推荐算法1.1 推荐模型构建流程1.1.1 使用什么数据显性数据:Rating,Comments隐形数据: Order history,Cart events,Page views,Click-thru,Search log1.1.2 使用什么特征一个给定的商品,可能被拥有类似品味或需求的用户购买使用用户行为数据描述商品1.1.2.1 数据表示将所有用户行为合并...原创 2019-11-11 15:14:12 · 150 阅读 · 0 评论 -
大数据实战(三)
1.Spark ML代码实现1.1 重要概念DataFrame用于学习的数据集可以包含多种类型管道组件Transfromers:transfrom()把一个DF转换成另一个DF的算法Estimators:fit()应用在一个DF上生成一个转换器的算法1.2 如何工作训练:预测:1.3 其他参数:所有的转化器和评估器共享一个公共的api参数名Param...原创 2019-11-06 14:26:56 · 200 阅读 · 0 评论 -
大数据实战(二)
4.用户画像系统4.1 什么是用户画像4.2 用户画像作用4.2 用户标签画像:标签标示法4.3 用户标签和标签的数学描述4.4 用户画像标签举例原创 2019-11-04 11:18:40 · 150 阅读 · 0 评论 -
大数据实战(一)
大数据应用领域互联网领域搜索引擎 推荐引擎电信领域用户画像 用户行为分析医药生物领域DNA分析视频领域视频存储 视频分析金融领域信用卡欺诈分析 用户分析矿产勘探领域矿产石油勘察预测大数据框架Hadoop生态系统Spark 生态系统...原创 2019-11-02 19:52:22 · 356 阅读 · 0 评论 -
Scala学习笔记(函数式编程)
函数式变成介绍函数具体代码介绍object Test02 { def main(args: Array[String]): Unit = { val dog = new Dog println(dog.sum(10,20)) //方法转函数 val f1 = dog.sum _ println("f1=" + f1(15,20)) //...原创 2019-10-02 19:37:26 · 131 阅读 · 0 评论 -
Spark学习笔记
MR的缺点:mr基于数据集的计算,所以面向数据1.基于运行规则从存储介质中获取(采集)数据,然后计算。最后将结果存储到介质中,主要应用于以一次性计算,不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。2.MR基于文件存储介质的操作,所以性能非常慢。Spark 历史是一种基于内存的快速、通用、可扩展的大数据分析引擎。2013年6月发布Spark基于Hadoop1.x 架构思想,采...原创 2019-09-28 15:30:53 · 71 阅读 · 0 评论 -
Scala学习笔记(基础语法)
Scala,java,jvm的关系图静态类型语言:在执行之前,数据类型就得确定下来范式:编程方式第一个scala代码//说明//1.object表示一个伴生对象,这里我们可以简单的理解就是一个对象 2.HelloScala就是对象名字。他底层真正对应的类名是HelloScala$, 对象是HelloScala$类型的一个静态对象MODULE$ 3.当我们编写一个objec...原创 2019-09-28 15:30:23 · 118 阅读 · 0 评论 -
Hadoop权威指南 第四版 学习笔记系列(第一章:初始Hadoop)
1 .传统的关系型数据库MapReduce数据大小GBPB数据读取交互式和批处理批处理更新多次读/写一次写入,多次读取事务ACID无结构写时模式读时模式完整性高低横向扩展非线性的线性的2.数据本地化特性是Hadoop数据处理的核心3.SETI@home :Search for Extra-Terrest...原创 2019-09-23 14:11:41 · 218 阅读 · 0 评论