大数据
嘟嘟杜
这个作者很懒,什么都没留下…
展开
-
大数据环境搭建及基本使用
目录大数据环境搭建及基本使用环境搭建:Ubuntu18.04三台虚拟机大数据1.Hadoop hdfs使用2.Hadoop mapreduce使用3.Hive使用4.Hbase使用5.Kafka使用大数据环境搭建及基本使用环境搭建:Ubuntu18.04三台虚拟机大数据记录一下自己搭建三台虚拟机的过程环境总体概述 主节点 IP地址 软件 进程 master原创 2020-06-01 21:44:47 · 961 阅读 · 0 评论 -
大数据学习——配置环境
ubuntu虚拟机安装https://blog.csdn.net/Andrewniu/article/details/88743846jvm+hadoop配置https://blog.csdn.net/kh896424665/article/details/78765175转载 2020-04-15 11:16:35 · 196 阅读 · 0 评论 -
大数据学习——资源调度框架 YARN
资源调度框架 YARN1 什么是YARN Yet Another Resource Negotiator, 另一种资源协调者 通用资源管理系统 为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处 2 YARN产生背景 通用资源管理系统 Hadoop数据分布式存储(数据分块,冗余存储) 当多...原创 2020-04-15 11:43:45 · 473 阅读 · 0 评论 -
大数据学习——分布式文件系统HDFS
2.1 HDFS的使用 启动HDFS [hadoop@hadoop00 sbin]$ ./start-dfs.sh Starting namenodes on [hadoop00]hadoop00: starting namenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-...原创 2020-04-15 11:35:14 · 310 阅读 · 0 评论 -
大数据学习——hadoop概述
1. Hadoop的概念: Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架 允许使用简单的编程模型跨计算机集群分布式处理大型数据集 可扩展: 从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储 可靠的: 不依靠硬件来提供高可用性(high-availability)...原创 2020-03-27 14:17:33 · 308 阅读 · 0 评论 -
nlp项目(四)——推荐系统评估及冷启动问题
推荐系统评估1 推荐系统的评估指标 好的推荐系统可以实现用户, 服务提供方, 内容提供方的共赢 评估数据来源显示反馈和隐式反馈 显式反馈 隐式反馈 例子 电影/书籍评分 是否喜欢这个推荐 播放/点击 评论 下载 购买 准确性 高 低 数量 少 多 获取成本 ...原创 2020-03-21 12:20:32 · 580 阅读 · 0 评论 -
nlp项目(三)——推荐算法:协同过滤实战
案例--基于协同过滤的电影推荐学习目标 应用基于用户的协同过滤实现电影评分预测 应用基于物品的协同过滤实现电影评分预测 1 User-Based CF 预测电影评分 数据集下载 下载地址:MovieLens Latest Datasets Small 建议下载ml-latest-small.zip,数据量小,便于我们单机使用和运行 ...原创 2020-03-21 12:12:22 · 1288 阅读 · 0 评论 -
nlp项目(二)——推荐算法:协同过滤
推荐算法1 推荐模型构建流程Data(数据)->Features(特征)->ML Algorithm(选择算法训练模型)->Prediction Output(预测输出) 数据清洗/数据处理 数据来源 显性数据 Rating 打分 Comments 评论/评价 隐形...原创 2020-03-21 11:54:15 · 1977 阅读 · 0 评论 -
nlp项目(一)——推荐系统简介及架构设计
1 推荐系统概念 什么是推荐系统 没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载, 系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统 2 推荐系统设计 推荐系统整体架构 大数据Lambda架构 Lambda架构是由实时大数据处理框架Storm的作者Nathan Marz提出的一个实时大数据处理框架...原创 2020-03-21 11:19:09 · 1293 阅读 · 0 评论 -
机器学习与大数据基础知识(二)
目录数据集如何对二分类问题进行评价?机器学习的步骤机器学习分类机器学习三要素如何设计机器学习系统模型选择-泛化性能体现正则化交叉验证库介绍数据集 数据集的行:样本 数据集的列:特征 特征组成的空间:特征或属性空间 组成属性空间中的点:特征或属性向量 将数据集切分成训练集和测试集,使用训练集+算法构成模型...原创 2020-03-10 21:54:12 · 631 阅读 · 0 评论 -
机器学习与大数据基础知识(一)
大数据时代究竟改变了什么? 改变的是思维 增加了数据重要性:数据资源--->数据资产(增值) 改变了方法论:基于知识的理论完美主义--->基于数据的历史经验主义 改变了数据分析:统计学(抽样)--->数据科学(大数据) 改变计算智能:复杂算法--->简单算法(MapReduce) 改变决策方面:基于目标决策---&g...原创 2020-03-09 16:08:58 · 2122 阅读 · 0 评论