![](https://img-blog.csdnimg.cn/05cb8f6585324306aa5c8c1f84226065.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
加油努力大数据
文章平均质量分 53
以大数据生态圈为主
努力努力
咸大湿fish
要努力变成真正的大师
展开
-
hadoop的分布式集群环境搭建
1.虚拟机搭建部分root登录ip addr 查看当前的IP地址2.克隆虚拟机(集群)基础设置vi /etc/sysconfig/network-scripts/ifcfg-ens33设置BOOTPROTO 为 “static” 静态ip:wqservice network restart设置主机名vi /etc/hostname关闭防火墙(永久)systemctl disable firewalld...原创 2022-03-03 23:03:56 · 1618 阅读 · 2 评论 -
Hive从0开始 (2)
Hive原创 2021-12-06 22:13:49 · 728 阅读 · 0 评论 -
Spark sql
创建一个基本DataFrameDataFrame常见算子操作对数据进行操作时 使用 $“age”数据过滤以及分组求和DataFrame的sql操作RDD转换为DataFrameload和save原创 2021-12-06 22:01:04 · 103 阅读 · 0 评论 -
spark 性能优化
宽依赖和窄依赖StageSpark三种提交模式Checkpointcheckpoint与持久化的区别Spark性能优化分析原创 2021-12-06 21:54:28 · 1003 阅读 · 0 评论 -
Spark 从零开始
什么是spark? 相关应用场景特性1.快速性如果在内存中运行MapRaduce,要比Hadoop快100倍如果在磁盘中运行,要比Hadoop快10倍Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算2.易用性Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用这些算子支持多种语言 按照切合度排序为 Scala, Python, R3.通用性...原创 2021-11-28 16:19:10 · 1160 阅读 · 0 评论 -
Hive 从0开始 (1)
什么是 Hive在本次学过程中,因个人本机windows mysql存在问题,所以采用的是derby初始化的Hive首先进入apache-hive-3.1.2-bin的bin目录启动hive命令set hive.cli.print.current.db=true (显示当前数据库)set hive.cli.print.header=true (设置显示表头)案例Hive中表类型...原创 2021-11-25 19:55:52 · 1293 阅读 · 0 评论 -
在IDEA中对hadoop开发 相关pom依赖文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav原创 2021-11-24 10:50:43 · 1386 阅读 · 1 评论 -
MapReduce--最最最基础部分
前言:MapReduce作为hadoop中和HDFS YARN 三大组件之一还是很有必要去掌握其中原理 并进行代码编写在这部分导包内容 是基于后续写代码的过程中 进行导入的(可跳过)package com.xkh.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apach原创 2021-11-03 10:43:58 · 245 阅读 · 0 评论 -
人岗智能匹配系统(上)
人岗智能匹配系统(上)项目概述搭建大数据环境数据采集数据预处理数据存储数据分析数据可视化人岗智能匹配系统的设计与实现摘 要企业招聘需求日益多元化、精细化,招聘服务的开展难度正面临日益严峻的挑战。通过自然语言处理、机器学习等技术手段,建立海量企业招聘岗位画像、个人用户画像,在人才推荐、岗位推荐等方向提供数据智能服务,从而提高企业人才招聘效率。本系统的功能包括用户管理功能和人岗匹配功能,用户管理功能是系统的基本功能,包括用户注册和用户登录,用户分为个人求职者和企业招聘人员;人岗匹配功原创 2021-09-21 15:33:18 · 3714 阅读 · 8 评论 -
人岗智能匹配系统(中)
人岗智能匹配系统(中)5.1 数据库版本Mysql 5.75.2 数据库设计在导入数据之前,首先要创建所对应的表的列名和数据类型,再将/var/lib/mysql-files/中的csv文件导入到创建好的表中/var/lib/mysql-files/的csv文件在Sql语句中,每一次存储数据之前都要执行“set sql_mode=’’;”语句,目的是为了提高数据库的效率,清除默认的模式信息创建person表列名:PERSON_ID,GENDER,WORK_YEARS,HIGHEST_EDU原创 2021-10-25 23:40:02 · 2525 阅读 · 6 评论 -
重启大数据
重启大数据在学校学习大数据一年之后,学的很浅 很乱打算进行自己的系统性学习关于环境走进大数据 最开始的就是hadoop生态圈(以后有机会在做hadoop的相关配置以及hdfs的简单使用)hadoop版本 hadoop 3.2.0编辑器notepad++IntelliJ IDEA Community Edition 2021.2.1maven apache-maven-3.0.5IDEA破解教程可自行网上搜索不会破解的就在官网下载社区版链接: https://www.jetb原创 2021-08-29 20:31:18 · 126 阅读 · 1 评论