- 博客(28)
- 收藏
- 关注
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(20)--ECharts展示结果
本项目使用ECharts展示结果。ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts最初由百度团队开源,并于2018年初捐赠给Apache基金会,2021年后成为Apache下顶级项目。
2023-04-14 14:46:56 199
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(19)--通过Spark Streaming进行实时分析
Spark Streaming是SparkCore API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets。本项目将实时处理Kafka的数据。
2023-04-14 09:49:59 255
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(18)--通过Spark SQL进行离线分析
Spark SQL源自于Shark项目,但是Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark各个组件的相互集成,所以提出了Spark SQL项目。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码。
2023-04-06 20:45:10 182
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成
Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块,它在RDD之上抽象出来Dataset/Dataframe,并且可以充当分布式SQL查询引擎。本项目使用Spark SQL进行离线分析,批量处理用户行为日志,对用户行为进行分析。离线分析过程:Spark SQL与Hive、Mysql、Hbase集成,其核心就是Spark SQL通过hive外部表来获取HBase的表数据。
2023-04-01 07:38:13 212
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(15)--集成Flume、Kafka和HBase
在IDEA工具的Terminal中,使用 mvn clean package -DskipTests将HBaseSink打包为flume-ng-hbase2-sink-1.9.0.jar,并上传至namenode的flume安装的lib目录下。在flume的安装目录下找到conf目录,创建flume-hbase-kafka.properties文件,然后修改该配置文件的内容。在IDEA中导入Flume源码中的 flume-ng-hbase2-sink 工程。启动kafka之前需要启动zookeeper。
2023-03-29 16:48:43 94
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(16)--安装和配置Spark
本实验使用的Spark版本为spark-3.1.2-bin-hadoop3.2。
2023-03-29 16:47:21 135
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(12)--集成Hive与HBase
在完成Hive与HBase表映射之后,接下来就可以使用Hive 查询HBase中的数据。进入hive安装目录,修改hive-site.xml文件,添加如下内容。修改hive-env.sh配置文件,添加内容如下所示。【注意】请确认在hbase中已经创建sogoulogs。将Hbase相关依赖包复制到Hive的lib目录下。#启动hive的metastore服务。Hive中存在两种表,内部表和外部表。#先启动Hadoop。#查看hive中的表。
2023-03-29 16:46:54 121
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(14)--安装与配置Kafka
本实验使用的kafka版本为kafka_2.12-2.6.0。本平台只在namenode上配置了一个Kafka,datanode上没有配置kafka。
2023-03-29 16:46:01 55
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(10)--安装MySQL
由于Hive运行过程中需要metaStore支持,本项目使用MySQL充当MetaStore。因此需要首先安装MySQL。
2023-03-29 16:45:30 70
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(9)--向HBase导入搜狗网数据
由于SogouQ.csv没有HBASE_ROW_KEY,因此需要手工创建HBASE_ROW_KEY(userid+datetime+当前时间),本项目已经变换完毕,保存在sogou-hbase.csv中,直接使用即可。向表fruitTable中插入ROWKEY=1001、“info:name”列,添加数据值为“banana"(注意这条语句不在hbase shell中运行,在Linux下的terminal下运行)创建一个表,该表名称为fruitTable,包含1个列族info。这里只给出部分截图,成功!
2023-03-27 07:48:37 128
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(5)--克隆生成datanode1和datanode2节点
#1、 克隆生成datanode1(1)、选择菜单“虚拟机–》管理–》克隆”选项(2)、点击“下一步”看到下面的界面(3). 使用默认选项,点击“下一步”,选择“创建完整克隆( F)”,点击“下一步”,如下图所示。(4)、将虚拟机重命名为 datanode1,选择一个存储位置,点击完成。
2023-03-27 07:46:02 70
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(8)--安装和配置HBase
本实验使用的HBase版本为2.3.0Hbase安装可以分为单机模式和分布式模式,本平台使用分布式模式安装,且使用Hbase自带的zookeeper。
2023-03-27 07:45:56 118
原创 基于Hadoop3.2的搜狗网搜索日志行为分析(2)--VMWare安装Ubuntu 16.04操作系统
使用VMWare安装Ubuntu 16.04的方法
2023-03-26 17:26:17 141
转载 增强学习Reinforcement Learning经典算法梳理
https://blog.csdn.net/songrotek/article/details/51378582
2018-08-25 16:18:04 307
转载 Giraph分析
1、Giraph安装 操作系统:centOS6.5 JDK 64位 Hadoop 2.5.1 zookeeper 3.4.6 giraph1.1.02、Giraph源码分析 https://blog.csdn.net/xin_jmail/article/details/22306495
2018-08-21 10:18:05 475
原创 吴恩达人工智能学习笔记
建议使用的工具Octave 1、the example of supervised learning housing price prediction (regression) cancer (classification) 2、the example of unsupervised learning google news org...
2018-08-02 11:49:46 837
转载 机器学习视频
1、吴恩达机器学习视频 https://blog.csdn.net/moffy_abo/article/details/79405174 (国内)https://www.coursera.org/learn/machine-learning (国外)
2018-08-02 11:05:42 473
基于Hadoop3.2搭建大数据平台
2023-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人