大数据
文章平均质量分 84
小杰911
书读百遍其义自见,知行合一,格物致知。
展开
-
【新星计划】Kafka分布式发布订阅消息系统
Producer是消息的生产者,通常情况下,数据消息源可是服务器日志、业务数据及Web服务数据等,生产者采用推送的方式将数据消息发布到Kafka的主题中,主题本质就是一个目录,而主题是由Partition Logs(分区日志)组成,每条消息都被追加到分区中。与点对点消息系统不同的是,消费者可以订阅一个或多个topic(分类),消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费,数据被消费后不会立马删除。在发布-订阅消息系统中,消息的生产者称为发布者,消费者称为订阅者。原创 2023-07-21 21:04:05 · 2708 阅读 · 6 评论 -
【新星计划】HDFS之介绍
随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切。原创 2023-07-03 13:12:05 · 337 阅读 · 1 评论 -
【新星计划】2023年最新教程Centos7虚拟机安装
首先去官网下载环境http://archive.kernel.org/centos-vault/7.8.2003/isos/x86_64/由于我百度网盘没vip上传不了下载链接,后面我有了会补一个我的下载链接下载后就可以打开VMware虚拟机了,没有下载的朋友要去先下载,我用的是16 pro版本这里给上链接下载https://customerconnect.vmware.com/cn/downloads/#all_products下载安装直接安装就好了,网上也很多教程这里我就不细说了,安装最后需要密匙,这原创 2023-07-03 07:12:10 · 2935 阅读 · 42 评论 -
【新星计划】Hadoop入门介绍
是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。原创 2023-07-02 21:39:02 · 358 阅读 · 18 评论 -
基于django的二手房交易预测及展示系统
我做的这个系统是用Django来的二手房的交易预测,通过对历史交易数据进行分析和挖掘,利用机器学习算法预测未来的二手房交易价格,并提供可视化的展示和分析功能。该系统的意义在于,通过提供准确的市场信息和决策依据,可以降低买卖双方的风险和成本,促进市场的健康发展。2. 实现二手房交易数据的分析功能还有预测功能:我选择采用数据挖掘还有选择采用机器学习的算法来对二手房交易数据进行分析和预测,提供房价趋势、交易量等数据指标,为用户提供更准确的市场信息和决策依据。最终,该系统获得了较高的精确度和准确性。原创 2023-06-22 14:10:03 · 670 阅读 · 23 评论 -
【大数据学习番外篇之爬虫3】爬美女照片
为什么猪会说谎?因为它们不想被揭穿是猪!1. 为什么小鸟总是歌唱?因为它们不会说话!2. 为什么光头强不喜欢去博物馆?因为里面都是古人的头发!3. 为什么鱼不喜欢唱歌?因为它们会唱跳不动!4. 为什么猫喜欢冬天?因为它们可以半夜偷偷溜进你的被窝里!5. 为什么蚂蚁会掉头走?因为它们发现前面有一只比自己大的蚂蚁!6. 为什么熊会在树上打滚?因为它们想要让蜜蜂掉下来!7. 为什么鸭子总是不停地摇头?因为它们不知道该用嘴巴还是用屁股!8. 为什么狗会舔自己的屁股?因为它们忘记带纸了!原创 2023-06-12 11:32:51 · 633 阅读 · 5 评论 -
【大数据学习番外篇之爬虫2】爬虫入门简单例子
实现了翻译后的文本获取,保存本地json。原创 2023-06-09 16:10:55 · 522 阅读 · 11 评论 -
【大数据学习番外篇之爬虫1】 爬虫的介绍与基本使用
1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源...2.你是否在节假日出行高峰的时候,想快速抢购火车票成功...3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品...原创 2023-06-09 15:36:41 · 1150 阅读 · 12 评论 -
【大数据学习篇14】centos6安装Mysql
2 | 李四 | 88.5 | 68 | 96 | NULL || 2 | 李四 | 88.5 | 68 | 96 | NULL || 2 | 李四 | 88.5 | 68 | 96 | NULL || 2 | 李四 | 88.5 | 68 | 96 | NULL || 2 | 李四 | 88.5 | 68 | 96 |原创 2023-06-09 10:38:23 · 864 阅读 · 33 评论 -
【大数据学习篇13】在linux上安装jupyter
1.2 进入自己的安装目录,安装anaconda一直按回去车然后按yes就好了。原创 2023-06-08 17:20:32 · 5565 阅读 · 44 评论 -
【大数据学习篇12】 Spark项目实战-数据可视化
SpringBoot 的设计目的是为了简化Spring应用的初始搭建以及开发过程,摆脱复杂的手动配置,能迅速搭建起一个Java Web项目。MyBatis是一个开源的数据持久层框架,其内部封装了JDBC访问数据库的操作,支持普通的SQL查询、存储过程和高级映射。Echarts是一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,提供了多种丰富的可视化类型。多学一招:Phoenix查询引擎与MyBatis。原创 2023-05-31 17:15:56 · 4343 阅读 · 15 评论 -
【大数据学习篇11】广告点击流实时统计
电商网站通常会存在一些广告位,当用户浏览网站时投放的广告内容会在对应广告位显示。此时,有些用户可能会点击广告跳转到对应界面去查看详情,从而提升用户在网站的浏览深度和购买概率,针对这种用户广告点击行为的实时数据进行实时计算和统计,可以帮助公司实时地掌握各种广告的投放效果,以便于后续能够及时地对广告投放相关的策略进行调整和优化,以期望通过广告的投放获取更高的收益。目录学习目标/Target概述1.数据集分析2.实现思路分析3.数据库设计4. 实现广告点击流实时统计5.运行程序。原创 2023-05-31 11:20:01 · 1909 阅读 · 16 评论 -
【大数据学习篇10】Spark项目实战~网站转化率统计
通过页面单跳转化率的计算公式得知,若要计算单跳A→B的页面单跳转化率,首先需要获取页面A的访问次数,然后需要获取单跳A→B的次数,最终将这两部分数据代入页面单跳转化率的计算公式中计算单跳A→B的页面单跳转化率。在计算每个单跳的页面单跳转化率之前,需要将每个页面与每个单跳进行一一对应,也就是说如果计算单跳A→B的页面单跳转化率,那么代入页面单跳转化率计算公式中的一定是页面A的访问次数,而不能是页面B或C的访问次数。本章我们将对用户浏览网页数据进行分析,从而统计出页面单跳转化率。原创 2023-05-24 09:58:29 · 1962 阅读 · 7 评论 -
【大数据学习篇9】各区域热门商品Top3分析
掌握各区域热门商品Top3分析实现思路掌握如何创建Spark连接并读取数据集掌握利用Spark获取业务数据掌握利用Spark过滤商品的行为类型掌握利用Spark转换数据格式掌握利用Spark统计每个区域中的不同商品掌握利用Spark根据区域进行分组掌握利用Spark根据区域内商品的查看次数进行排序掌握将数据持久化到HBase数据库熟悉通过Spark On YARN运行程序用户在访问电商网站时,网站在存储用户行为数据的同时,还会通过IP地址或位置信息存储用户触发行为所在的区域数据。原创 2023-05-19 15:56:57 · 1825 阅读 · 22 评论 -
【大数据学习篇8】 热门品类Top10分析
品类指商品所属分类,用户在访问电商网站时,通常会产生很多行为,例如查看商品的信息、将感兴趣的商品加入购物车和购买商品等,这些行为都将作为数据被网站存储。本章我们将通过对电商网站存储的用户行为数据进行分析,从而统计出排名前10的热门品类。原创 2023-05-19 11:56:56 · 3352 阅读 · 42 评论 -
【大数据学习篇7】小试牛刀统计并且分析天猫数据
本项目基于搭建大数据环境,通过将数据存放在HDFS上,从HDFS中获取数据,然后根据实际需求通过Spark或Spark SQL对数据进行读取分析,将分析结果存储到HBase表中,最终通过 ECharts数据可视化工具基于Python Web平台实现数据可视化。订单号、成交金额、付款金额、订单时间、付款时间、退款1、统计每个省的订单总额2、统计每个省的退款总额3、统计全国订单总额4、统计前10名省订单总额5、统计前10名省退款总额6、统计每个省的订单数7、统计每个省的退款数。原创 2023-05-15 15:27:08 · 3292 阅读 · 22 评论 -
【大数据学习篇6】 Spark操作统计分析数据操作
8| 53.0| 53.0| 浙江省|2020-02-20 23:56:12|2020-02-20 23:56:16| 0.0|| 11|267.9| 0.0| 北京|2020-02-20 23:54:24|2020-02-20 23:54:31| 267.9|| 12| 37.0| 37.0| 四川省|2020-02-20 23:54:24|2020-02-20 23:54:31| 0.0|原创 2023-05-12 09:52:45 · 3126 阅读 · 16 评论 -
【大数据学习篇5】 Spark安装实验
上传安装scala安装包 /home/hd/apps#解压#改名#切换root用户Password:#增加环境变量#第一台机器测试#把新的环境发送到其它机器#切换用户把scala程序名,发送到其它的机器#第二台机器测试#第三台机器测试。原创 2023-05-11 15:28:09 · 718 阅读 · 3 评论 -
【大数据学习篇4】Hive安装与操作
在Centos7使用Yum安装MariaDBMySQL 已经不再包含在 CentOS 7 的源中,而改用了 MariaDB;原创 2023-05-10 09:53:43 · 889 阅读 · 5 评论 -
【大数据学习篇3】HDFS命令操作与MR单词统计
su hd#查看/目录5#在/目录创建一个为test名字的文件夹#查看/目录#创建一个本地的txt文件#把创建的文件上传到hdfs#在hdfs查看上传的文件#下载hdfs文件到本地的linux当前目录lltotal 0#下载hdfs文件到当前目录lltotal 4。原创 2023-05-09 15:45:52 · 621 阅读 · 4 评论 -
【大数据学习篇2】Hadoop集群安装
- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->-- 指定YARN的老大(ResourceManager)的地址 -->-- 设置secondarynamenode的http通讯地址 -->-- 设置namenode的http通讯地址 -->-- 设置namenode存放的路径 -->-- 设置datanode存放的路径 -->-- reducer获取数据的方式 -->-- 指定mr运行在yarn上 -->-- 指定HDFS副本的数量 -->原创 2023-05-09 10:53:23 · 2246 阅读 · 9 评论 -
【大数据学习篇1】linux常用命令
/list查看当前目录下有什么文件ls //list -list 通过详细内容形式查看目录下的文件内容 ls -l 或 ll //查看指定目录下文件名字信息 ls 目录 //以详细列表形式查看指定目录下文件名字信息 ls -l 目录 //list all 查看全部文件,包括隐藏文件 ls -a //list list all 以详细列表形式查看全部文件,包括隐藏文件 ls -al //查看目录下文件名字的索引号码 ls -i。原创 2023-05-09 10:03:19 · 1007 阅读 · 3 评论