jasmine_wxy-CSDN博客

原创基于Hadoop3.2的搜狗网搜索日志行为分析(20)--ECharts展示结果

本项目使用ECharts展示结果。ECharts是一款基于JavaScript的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。ECharts最初由百度团队开源，并于2018年初捐赠给Apache基金会，2021年后成为Apache下顶级项目。

2023-04-14 14:46:56 199

原创基于Hadoop3.2的搜狗网搜索日志行为分析(19)--通过Spark Streaming进行实时分析

Spark Streaming是SparkCore API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets。本项目将实时处理Kafka的数据。

2023-04-14 09:49:59 255

原创基于Hadoop3.2的搜狗网搜索日志行为分析(18)--通过Spark SQL进行离线分析

Spark SQL源自于Shark项目，但是Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark各个组件的相互集成，所以提出了Spark SQL项目。SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等，重新开发了SparkSQL代码。

2023-04-06 20:45:10 182

原创基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成

Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块，它在RDD之上抽象出来Dataset/Dataframe，并且可以充当分布式SQL查询引擎。本项目使用Spark SQL进行离线分析，批量处理用户行为日志，对用户行为进行分析。离线分析过程：Spark SQL与Hive、Mysql、Hbase集成，其核心就是Spark SQL通过hive外部表来获取HBase的表数据。

2023-04-01 07:38:13 212

原创基于Hadoop3.2的搜狗网搜索日志行为分析(15)--集成Flume、Kafka和HBase

在IDEA工具的Terminal中，使用 mvn clean package -DskipTests将HBaseSink打包为flume-ng-hbase2-sink-1.9.0.jar，并上传至namenode的flume安装的lib目录下。在flume的安装目录下找到conf目录，创建flume-hbase-kafka.properties文件，然后修改该配置文件的内容。在IDEA中导入Flume源码中的 flume-ng-hbase2-sink 工程。启动kafka之前需要启动zookeeper。

2023-03-29 16:48:43 94

原创基于Hadoop3.2的搜狗网搜索日志行为分析(13)--安装与配置Flume

本实验使用的Flume版本为1.9.0。

2023-03-29 16:47:21 61

原创基于Hadoop3.2的搜狗网搜索日志行为分析(16)--安装和配置Spark

本实验使用的Spark版本为spark-3.1.2-bin-hadoop3.2。

2023-03-29 16:47:21 135

原创基于Hadoop3.2的搜狗网搜索日志行为分析(12)--集成Hive与HBase

在完成Hive与HBase表映射之后，接下来就可以使用Hive 查询HBase中的数据。进入hive安装目录，修改hive-site.xml文件，添加如下内容。修改hive-env.sh配置文件，添加内容如下所示。【注意】请确认在hbase中已经创建sogoulogs。将Hbase相关依赖包复制到Hive的lib目录下。#启动hive的metastore服务。Hive中存在两种表，内部表和外部表。#先启动Hadoop。#查看hive中的表。

2023-03-29 16:46:54 121

原创基于Hadoop3.2的搜狗网搜索日志行为分析(11)--安装和配置Hive

本实验使用的Hive版本为3.1.2。

2023-03-29 16:46:32 64

原创基于Hadoop3.2的搜狗网搜索日志行为分析(14)--安装与配置Kafka

本实验使用的kafka版本为kafka_2.12-2.6.0。本平台只在namenode上配置了一个Kafka，datanode上没有配置kafka。

2023-03-29 16:46:01 55

原创基于Hadoop3.2的搜狗网搜索日志行为分析(10)--安装MySQL

由于Hive运行过程中需要metaStore支持，本项目使用MySQL充当MetaStore。因此需要首先安装MySQL。

2023-03-29 16:45:30 70

原创基于Hadoop3.2的搜狗网搜索日志行为分析(9)--向HBase导入搜狗网数据

由于SogouQ.csv没有HBASE_ROW_KEY，因此需要手工创建HBASE_ROW_KEY（userid+datetime+当前时间），本项目已经变换完毕，保存在sogou-hbase.csv中，直接使用即可。向表fruitTable中插入ROWKEY=1001、“info:name”列，添加数据值为“banana"(注意这条语句不在hbase shell中运行，在Linux下的terminal下运行)创建一个表，该表名称为fruitTable，包含1个列族info。这里只给出部分截图，成功！

2023-03-27 07:48:37 128

原创基于Hadoop3.2的搜狗网搜索日志行为分析(7)--搭建Hadoop平台

以下操作请在namenode上执行。

2023-03-27 07:47:48 57

原创基于Hadoop3.2的搜狗网搜索日志行为分析(6)--配置主节点到其它节点的免密认证登陆

以下所有操作都是在namenode节点上进行的。

2023-03-27 07:46:35 101

原创基于Hadoop3.2的搜狗网搜索日志行为分析(5)--克隆生成datanode1和datanode2节点

#1、克隆生成datanode1（1）、选择菜单“虚拟机–》管理–》克隆”选项（2）、点击“下一步”看到下面的界面（3）. 使用默认选项，点击“下一步”，选择“创建完整克隆（ F）”，点击“下一步”，如下图所示。（4）、将虚拟机重命名为 datanode1，选择一个存储位置，点击完成。

2023-03-27 07:46:02 70

原创基于Hadoop3.2的搜狗网搜索日志行为分析(8)--安装和配置HBase

本实验使用的HBase版本为2.3.0Hbase安装可以分为单机模式和分布式模式，本平台使用分布式模式安装，且使用Hbase自带的zookeeper。

2023-03-27 07:45:56 118

原创基于Hadoop3.2的搜狗网搜索日志行为分析(4)--安装JDK

jdk安装

2023-03-27 07:42:57 55

原创基于Hadoop3.2的搜狗网搜索日志行为分析(3)--配置Ubuntu 16.04操作系统

配置Ubuntu 16.04操作系统

2023-03-26 17:30:06 86

原创基于Hadoop3.2的搜狗网搜索日志行为分析(1)--需求描述及平台规划

基于Hadoop3.2的搜狗网搜索日志行为分析大数据项目介绍

2023-03-26 17:28:42 173

原创基于Hadoop3.2的搜狗网搜索日志行为分析(2)--VMWare安装Ubuntu 16.04操作系统

使用VMWare安装Ubuntu 16.04的方法

2023-03-26 17:26:17 141

原创 RL总结

2017年是强化学习算法开始发力的一年，DeepMind， OpenAI，Uber，世界各大名校等人工智能团队贡献了大量的研究论文。

2019-09-26 21:06:34 102

原创 RL学习计划

1、第一周

2019-09-05 15:23:29 130

转载增强学习Reinforcement Learning经典算法梳理

https://blog.csdn.net/songrotek/article/details/51378582

2018-08-25 16:18:04 307

转载 Giraph分析

1、Giraph安装操作系统：centOS6.5 JDK 64位 Hadoop 2.5.1 zookeeper 3.4.6 giraph1.1.02、Giraph源码分析 https://blog.csdn.net/xin_jmail/article/details/22306495

2018-08-21 10:18:05 475

转载 Python语言

Python读入数据的方法 http://www.cnblogs.com/futurehau/p/6109965.html

2018-08-07 18:07:52 289

原创吴恩达人工智能学习笔记

建议使用的工具Octave 1、the example of supervised learning housing price prediction (regression) cancer (classification) 2、the example of unsupervised learning google news org...

2018-08-02 11:49:46 837

转载机器学习视频

1、吴恩达机器学习视频 https://blog.csdn.net/moffy_abo/article/details/79405174 （国内）https://www.coursera.org/learn/machine-learning （国外）

2018-08-02 11:05:42 473

转载 AI好文章及书籍

http://neuralnetworksanddeeplearning.com/chap1.html

2018-08-01 15:38:29 115

RDD、DataFrame和DataSet三者之间的关系

分别介绍使用RDD、Data Frame和DataSet实现以Word Count的方法

2023-03-22

基于Hadoop3.2搭建大数据平台

详细介绍了基于Hadoop3.2构建大数据平台过程，其中包括Hadoop3.2、HBase 2.3、Hive 3.1.2、Flume 1.9、Kafka2.12、Spark3.1.2的详细安装过程。适用于刚开始学习大数据平台的用户。

2023-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人