![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 96
一曲无痕奈何
执笔书写人生路,背包踏尽世俗事。
展开
-
BAT大牛亲授基于ElasticSearch的搜房网实战(第四章环系统架构设计与分层)
从零起步基于ElasticSearch的搜房网(前后端集成)实战(介绍与整体目录)点击即可静态资源集成太多页面,我已经上传到博客资源链接,供下载。后期代码全部完善后,会上传到github上。静态资源链接下载(点击) 系统架构设计项目的结构分层:新建一个web包,把之前的contr...原创 2019-11-15 16:28:19 · 371 阅读 · 0 评论 -
BAT大牛亲授基于ElasticSearch的搜房网实战(第三章环境搭建)
重点注意版本最好和我的pom.xml的文件一致,版本不匹配会出现很多问题!!!环境搭建实现内容:3-1 环境要求 3-2 后端框架搭建 3-3 集成单元测试及H2 3-4 前端集成3-1 环境要求:ES服务搭建:搭建ES教程链接Windows上搭建ES服务搭建教程(点击即可)3-2 后端框架搭建后端框架的搭建:SpringBoot项目的搭...原创 2019-11-13 20:01:42 · 763 阅读 · 0 评论 -
BAT大牛亲授从零起步基于ElasticSearch的搜房网(前后端集成)实战(介绍与整体目录)
围绕“搜索”核心业务,构建 “房屋寻租”完整前后端业务分角色用户入口: 普通用户/管理员用户 完善的管理功能: 后台管理/权限管理 核心功能模块: 房源浏览 / 搜索/地图找房 会员系统/预约看房技术核心技术&搜索引擎:ElasticSearch(基于5.x最新版本) 前端:Thymeleaf、Jquery、Bootstrap、webUpLoad 基础核心框架...原创 2021-01-31 12:57:49 · 852 阅读 · 0 评论 -
BAT大牛亲授从零起步基于ElasticSearch的搜房网(前后端集成)实战(第二章需求分析和数据库设计)
第2章 项目设计本章会对课程的实现项目设计做相关的介绍分析,包括需求分析以及数据库设计分析,让大家可以对本门课程的项目实际应用需求背景有基本的了解,同时学习本门课程的数据库设计思想与技巧。2-1 _需求分析 2-2 _数据库设计需求分析:项目背景 目标用户 项目可行性用户ER图:房源信息ER图:数据库设计:数据库设计表...原创 2019-11-03 22:49:42 · 755 阅读 · 0 评论 -
Streaming实战
用Python日志产生器开发实之产生访问Url和Ip信息,时间,http请求头,查询内容:根据主站的url和ip地址可以看到页面的信息,然后根据实际情况来定时产生ip和url通过定时调度工具每一分钟产生一批数据Linux crontab网站 :http://tool.lu/crontab每一分钟执行一次的cron...原创 2019-10-23 15:22:06 · 478 阅读 · 0 评论 -
用Python日志产生器开发实之产生访问Url和Ip信息,时间,http请求头,查询内容:
用Python日志产生器开发实之产生访问Url和Ip信息,时间,http请求头,查询内容:根据主站的url和ip地址可以看到页面的信息,然后根据实际情况来定时产生ip和url模拟的数据的结果:模拟的代码:#定时模拟数据#coding = UTF-8#根据课程页面分析拿到数据#访问的路径import randomimport timeurl_pa...原创 2019-10-15 20:15:29 · 342 阅读 · 0 评论 -
安徽省大数据网络赛大数据分析第一小题
该数据集log.log是某APP用户日志,请你使用MapReduce程序对数据进行预处理清洗提取。(15分)1.1 原始数据预处理(编写相关代码及部分结果截图8分)规则一:如果没有数据中没有uid、platform、app_version、pid四个字段同时出现的数据,请过滤掉规则二:将数据中字段locationcity的值为0的全部替换为1数据类型:{"common"...原创 2019-10-02 16:00:53 · 621 阅读 · 0 评论 -
安徽省大数据网络赛大数据分析第二小题
具体数据和字段介绍在此篇博客中:安徽省大数据分析第一小题请你将原始数据中用户的"uid","platform","app_version","pid","cityid" 五个字段和期对应的值提取出来。(编写相关代码及部分结果截图7分)解题思路:首先我们观察数据的格式,按照什么切分,最终确定按照逗号切分效果最好。第一步:map阶段进行过滤,只要包含这五个字段就进行写进reduce...原创 2019-10-02 16:05:38 · 708 阅读 · 0 评论 -
2018年安徽省大数据比赛MapReduce题目解答第一题
1、编写自动脚本,在0-100的范围内生成随机整数,共生成5万个数字,以英文逗号进行分隔(5分):看了参考答案我发现参考答案写的很麻烦,但是也比较中规中矩,考虑了一些可能是工作上面的问题,而我能想的就是简单快速,拿分。自己代码:import java.io.FileNotFoundException;import java.io.FileOutputStream;import ...原创 2019-10-02 16:11:09 · 854 阅读 · 0 评论 -
2018年安徽省大数据比赛MapReduce题目解答第二题
num.txt在此博客中:https://blog.csdn.net/qq_41479464/article/details/101922339使用MR的处理方式,去除num.txt中以2开头的数字,并且统计每个数字出现的次数将结果保存为num2.txt(10分)主函数:import java.io.IOException;import org.apache.hadoop.co...原创 2019-10-02 16:14:09 · 510 阅读 · 0 评论 -
2018年安徽省大数据比赛MapReduce题目解答第三题
3、求每年最高气温(10分)根据/opt/ahdsjjs/Temperature.txt编写MapperReduce脚本 获得每年的最高气温,并输出数据格式如下:2014010114201401021620140103172014010410201401050620120106092012010732201201081220120109192012011023...原创 2019-10-02 16:19:24 · 704 阅读 · 0 评论 -
MapReduce实现数据集的城市id的关联(安徽省大数据网络赛数据预处理第三题)
处理好的数据:安徽省大数据网络赛第二题2 该题为数据处理常用处理方式,进行两个数据集的关联,原始数据集依然使用上述题1的log.log数据,另一数据集为cityid.txt。请完成数据关联。(10分)数据格式:1701|桐城市|桐城市|安徽|中国|安庆市|华东地区|四线城市|31.05228|116.938611702|宿松县|宿松县|安徽|中国|安庆市|华东地区|四线城市|30.1...原创 2019-10-03 14:01:15 · 642 阅读 · 0 评论 -
案例实战Spark Streaming处理socket数据
数据统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark Streaming 处理Socket数据 * 采用nc测试 */object NetworkWordCount { def main(args:...原创 2019-10-03 23:22:20 · 249 阅读 · 0 评论 -
用MapReduce统计微博的粉丝数,加上博主的昵称
需求:*统计粉丝数,对应的作者昵称,进行排名//*字段含义:id,发布时间,点赞数,评论数,转发数,作者昵称,关注,粉丝数,性别,博客内容 //数据格式:4404122063266890,2019-08-11,8471,1413,626,小猴紫日志,38,527766,m,杨紫超话#杨紫烈火英雄# @杨紫 一路向前,电影票房破11亿,向消防战士致敬!思路:首先拿...原创 2019-10-03 23:31:40 · 1370 阅读 · 0 评论 -
利用MapReduce实现好友推荐
MapReduce的好友推荐案列:推荐好友的好友是简单的好友列表的差集吗?最应该推荐的好友TopN,如何排名?简单数据集:tom hello hadoop catworld hadoop hello hivecat tom hivemr hive hellohive cat hadoop world hello mrhadoop tom hive ...原创 2019-08-09 18:03:33 · 693 阅读 · 0 评论 -
hive的三个基本小案例的实现
建表的基本语法:create table tablename(col,type)例一:create table sxtTest(id int,name string,likes array<string>,address map<string,string>)row format delimitedfields terminated by ','col...原创 2019-08-13 15:06:14 · 337 阅读 · 0 评论 -
centos7.5ping不通百度的解决方法
一直未知的服务:加入上面的两行,完美解决原创 2019-07-28 19:21:02 · 828 阅读 · 0 评论 -
hive的安装
二 Hive安装环境准备2.1 Hive安装地址1)Hive官网地址:http://hive.apache.org/2)文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址:http://archive.apache.org/dist/hive/4)github地址:...原创 2018-09-17 07:37:52 · 599 阅读 · 0 评论 -
安装centos7.3 没有网络的过程
安装centos 没有网络的过程:Ping www.baidu.com 没有,这时候百度了很多种方法,最后一种方法解决了。修改我图中标注的内容 第一个 加入的ipaddr是我用命令直接显示出来的:也就是ip,下面的两个地址 打开虚拟机:可以看到网关地址。...原创 2019-06-23 13:04:42 · 531 阅读 · 0 评论 -
利用eclipse使用java代码操作虚拟机的hdfs的基础教程
新建一个maven项目。点击File,new,mavenProject:然后把 groupId和ArtifactId随便写上就行创建好之后打开pom.xml文件:把hdfs操作需要的依赖添加进行:<dependency> <groupId>org.apache.hadoop</groupId> ...原创 2019-07-16 15:39:12 · 1079 阅读 · 0 评论 -
hadoop零基础入门01
hadoop概述:什么是hadoop:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。服务器(节点) 可以理解为我们的一台笔记本/台式机 在这里可以认为是我们的一台虚拟机 后面学习中,我们会把一台服务器称为一个节点机架 负责存放服务器的架子hadoop组件介绍:hadoop是一个统称,目前hadoop主要包含三大组件1、hdfs:是一个分布式存储框架,适合海量数据...原创 2019-07-16 20:46:49 · 723 阅读 · 0 评论 -
hbase知识点总结
hbase是什么:列式数据库 基于hdfs构建的数据库,可以存储pb级以上的数据量 列的数据可以动态增加Hbase的 架构: hmaster:1、提供表的创建修改删除服务 2、复制RegionServerd的负载均衡 3、负...原创 2019-07-24 00:22:15 · 429 阅读 · 0 评论 -
spark环境搭建从零起步,对wordcount进行处理
开始下载一个spark的集成包:基于hadoop的2.7的版本:https://www.apache.org/dyn/closer.lua/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz然后其上传解压:tar -zxvf 加 文件名然后重命名,方便环境变量的添加:开始 配置环境变量:vi /etc/profile :这是我习惯...原创 2019-07-29 16:42:00 · 110 阅读 · 0 评论 -
Hive-数据倾斜和作业优化
1,数据倾斜解决: 看下key的分布 处理集中的key 原因1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候2)、数据重复,join 笛卡尔积 数据膨胀 表现 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。 单一reduc...原创 2019-07-21 10:47:18 · 158 阅读 · 0 评论 -
利用spark分析慕课网千万条日志实战项目一、
具体分析流程链接:https://blog.csdn.net/qq_41479464/article/details/98211937用户行为日志概述:用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志。日志数据内容:访问的系统属性: 操作系统、浏览器等等 访问特征:点击的url、从哪个url跳转过来的(referer)、页面上...原创 2019-08-02 16:57:18 · 781 阅读 · 6 评论 -
利用spark分析慕课网千万条日志实战项目流程
利用spark分析慕课网5G日志实战项目课程视频及所有资料和代码以及镜像链接:https://download.csdn.net/download/qq_41479464/11502023包括以下六个部分:用户行为日志概述:用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志。日志数据内容:访问的系统属性: 操作系统、浏览器...原创 2019-08-02 16:52:38 · 663 阅读 · 1 评论 -
利用spark分析慕课网千万条日志实战项目二
Imooc网主站日志介绍:访问时间 访问url 访问过程耗费的流量 访问ip地址第一步是数据清洗:一般的日志处理方式,我们是需要进行分区的,按照日志中的访问时间进行相应的分区,比如:d,h,m5(每5分钟一个分区)输入:访问时间、访问URL、耗费的流量、访问IP地址信息输出:URL、cmsType(video/article)、cmsId(编号)、流量、ip、...原创 2019-08-03 00:03:27 · 312 阅读 · 0 评论 -
hbase的web界面无法访问问题
搭建好Hadoop集群以及HBASE之后,只用60010端口无法访问HBASE web界面集群搭建 环境配置 文件配置 完全正确开始我没有搭建zookeeper我以为是这个原因,但是想到hbase有自己自带的zookeeper,而且可以正常启动,访问不了是不科学的,于是又查了一下端口。hbase启动正常,然后看到hbase-site.xml中没有配置端口,以为需要配端口,试了一下还是...原创 2019-07-23 14:30:36 · 6577 阅读 · 2 评论 -
启动进程Datanode进程消失问题
可以看到子节点的DataNode没有启动起来,这个时候需要看日志了:查看日志看到datanode的id和namenode的ID不一样:我的配置文件的信息放在我指定的位置也就是上面的位置,进入这个位置,修改id:可以看到有一个version然后编辑就修改为namenode的id就可以:然后保存退出:然后到master的节点重新启动集群就可以有了:...原创 2019-07-28 10:10:12 · 1038 阅读 · 2 评论 -
hive启动致命问题
这个问题给我弄的泪流满面,弄了快一个月了,终于好了,解决完这个问题:Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Exceeded the configured number of objects 2 in th...原创 2019-07-28 11:40:06 · 691 阅读 · 0 评论 -
什么是hive
一 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上...原创 2018-09-17 07:32:06 · 343 阅读 · 0 评论