自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 智能柜管理系统C++实现

#define _CRT_SECURE_NO_DEPRECATE#include <iostream>#include <stdlib.h>#include <fstream>#include <cstdlib>#include <ctime>#include <string>using namespace std;struct Node{ int pcode; int num; string pnu...

2020-07-07 10:50:27 761 4

原创 搜狗日志查询分析 (MapReduce+Hive综合实验)

下载搜狗实验室查询日志,发现编码是UTF-8。将SogouQ文件夹下的文件从GBK编码转为UTF-8编码,结果存到SogouQ_UTF8中,其下的文件目录不变:shell命令:find SogouQ -type d -exec mkdir -p SogouQ_UTF-8{} \; find SogouQ -type f -exec iconv -f GBK -t UTF-8 {} -o SogouQ_UTF-8{} \;自定义类实现将分割数据用逗号相连输出正则表达式\s+匹配一个或多个分隔符、

2020-07-06 15:44:06 1206

原创 结构体指针实现的银行家算法C++版

#define _CRT_SECURE_NO_WARNINGS#include<stdlib.h>#include <iostream>using namespace std;struct allocation { int value; allocation *next;};struct max { int value; max *next;};struct available { int value; available *next;};struc

2020-05-22 10:17:30 293

原创 结构体指针实现的银行家算法C语言版

银行家算法C语言版结构体作用allocation已分配资源max最大需求资源available可分配的资源need需要的资源path进程运行的顺序finish满足要求的标志#define _CRT_SECURE_NO_WARNINGS#include<stdlib.h>#include<stdio.h>#include<malloc.h>struct allocation { int val

2020-05-22 10:15:52 286

原创 Hadoop1.0和2.0之间YARN的差别

Hadoop1.0和2.0之间YARN的差别Hadoop1.0的MapReduce的节点数达到4000,任务数达到40000,MapReduce会遇到可扩展瓶颈。Hadoop2.0性能提升:可以扩展支持10000个节点,100000个任务。调度器Scheduler默认为容器调度器(Capacity Scheduler)...

2020-05-13 15:05:10 388

原创 个人对于HDFS的上传以及合并的理解

这是模拟一个300M的文件在HDFS上传的过程在长时间的运行后NameNode内存里的edit-logs文件变的很大,如果此时NameNode挂掉了那么内存里的fsimage文件会丢失,导致很大的损失。SencondaryNameNode会定期(时间可以调整)和定量(edits的大小到一定值)进行checkpoint操作,在NameNode下载edits和fsimage合并后生成新的fsim...

2020-04-02 10:56:56 178

原创 大数据工程师必备技能

转载自:stuq.org

2020-04-02 10:27:51 141

原创 网站数据采集简述

网站流量日志数据采集nginx:是一个高性能的HTTP和反向代理web服务器。可以记录HTTP操作信息,通过它可以获取需要的信息。前端开发确定要收集的信息以及途径确定埋点代码编写javascript日志收集脚本埋点:网站分析的一种常用的数据采集方法,在页面中插入一段javascript代码。js自调用匿名函数(function(){}());webserverjava...

2020-04-01 22:37:24 378

原创 操作系统:进程同步与通信

进程同步与通信互斥多个进程不能同时使用同一个资源,当某个进程使用某种资源时,其他进程必须等待同步多个进程中发生的事件存在时序关系进程通信多个进程之间要传递信息进程间的相互作用无关进程:在逻辑上无任何联系的进程相关进程:指多个并发进程在逻辑上有某种联系进程的交互互斥:指多个进程不能同时使用同一个资源死锁:指多个进程互不相让,都得不到足够的资源饥饿:指一个进程一直得不到资源...

2020-03-24 10:26:05 261

原创 前端基础:HTML文档结构和基础标签

HTML文档结构基本结构HTML文档由头部head和主体body两个部分组成。<html></html>包括了head和body<head></head>定义标题、样式等<body></body>定义段落、标题字、超链接、脚本、表格、表单等元素,主体内容是网页要显示的信息。<meta>描述一个HTML网...

2020-03-23 13:16:35 370

原创 操作系统:进程的概念

进程的引入程序的顺序执行:顺序性 处理机的操作严格按规定顺序执行封闭性 程序执行时,独占系统资源可再现性 当初始条件相同时,程序多次执行的结果相同程序的并发执行:间断性 并发执行时形成相互制约关系, 导致程序“执行—暂停—执行”失去封闭性 资源供多个程序共享不可再现性 封闭性被打破,多程序运行次序随机程序并发执行的条件Bernstein读集:R(Pi)=...

2020-03-22 15:30:25 438

原创 初识Hadoop:HDFS

HDFS(Hadoop Distribute File System)是基于流数据访问模式的分布式文件系统,支 持海量数据的存储,允许用户将成百上千的计算机组成存储集群,HDFS 可以运行在低成本的硬 件之上,提供高吞吐量、高容错性的数据访问,非常适合大规模数据集上的应用。HDFS 的优点处理超大文件。HDFS 能够处理 TB 级甚至 PB 级的数据。支持流式数据访问。HDFS设计...

2020-03-21 11:29:45 639

原创 操作系统:OS概论

OS(操作系统)是计算机系统的控制中心,是计算机系统中最重要最复杂的软件层级结构:用户应用程序操作系统计算机硬件OS的特征并发性 共享性 虚拟性 不确定性OS的功能存储管理进程管理 (存储管理/处理机管理)设备管理文件管理用户接口(命令系统 | 用户系统)批处理系统单道批处理系统脱机I/O多道批处理分时系统CPU以时间片为单位轮流多路性 ...

2020-03-20 15:24:42 208

原创 前端基础和职业需求

Web工作原理Web相关概念统一资源定位符(Uniform Resource Locator,URL)协议类型://服务器地址(端口号)/路径/文件名Web服务器:网站,在Internet上提供Web访问服务的站点,必须配置IP地址和域名超链接:从一个网页指向另一个目标的连接关系HTML:SGML下的一个应用,是构成Web页面的基础HTML文档:描述网页,由HTML标记和纯文本构成文...

2020-03-19 21:43:13 315

原创 登录GitHub克隆仓库

1、打开我的电脑 , 进入C:Users/xxx/.ssh , 使用文本编辑器打开id_rsa.pub文件,并复制里面的内容2、到github.com ,注册一个账号,注册成功后,登录,在右上角的下拉菜单,进入settings3、创建一个新仓库4、将github上的仓库克隆到本地5、配置git的用户名与email6、在克隆下来的仓库上,随便创建一个文档,并添加到本地仓库...

2020-03-03 12:10:56 215

原创 大数据分析方向概述

数据分析数据分析是指运用适当的统计分析方法或者工具对收集来的大量数据进行整理和归纳,将它们加以汇总和理解并消化,提取有价值信息,从中发现因果关系,内部联系和业务规律,以求最大化地开发数据地功能,形成有效结论地过程,发挥数据地作用。步骤思路明确分析目的和思想/提出假设数据收集爬虫的工作原理基本流程:1、发送请求(urlib,requests)2、获取页面内容(html)3、解析页...

2020-03-02 15:54:56 871

原创 爬虫入门:CSS选择器

CSS选择器html代码<html><head> <title></title></head><body> <div class="box"> <p>第一行</p> <p>第二行</p> <p>第三行</p> &lt...

2020-03-01 11:15:31 206

原创 爬虫入门:selenium

seleniumfrom selenium import webdriver#webdriver启动Google浏览器driver = webdriver.Chrome()driver.get("网址")常用操作close();关闭当前页面quit();退出整个浏览器定位元素find_element_by_id():根据id来获取元素find_element_by_cl...

2020-02-29 23:23:53 197

原创 爬虫入门:AJAX

AJAX:(asynchronous javascript and xml)异步JavaScript和XML是一种创建交互式网页应用的网页开发技术。AJAX不是新的编程语言,而是一种使用现有标准的新方法。AJAX是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下。通过在后台与服务器进行少量的数据交换,AJAX可以实现网页的异步更新。即可以在不重新加载整个网页的情况下,...

2020-02-28 21:35:59 279

原创 爬虫入门:BeautifulSoup

BeautifulSouphtml = """<html><head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>QQ浏览器</title><link href="/favicon.ico" rel...

2020-02-27 12:37:52 451

原创 爬虫入门:正则表达式

正则表达式1.又称规则表达式(英语:Regular Expression,在代码中常简写为regex、 regexp或RE),计算机科学的一个概念。 正则表达式通常被用来检索、替换那些符合某 个模式(规则)的文本。2.是对字符串操作的一种逻辑公式。 用事先定义好的一些特定字符、及这些特定字 符的组合,组成一个“规则字符串”,这个“规则 字符串”用来表达对字符串的一种过滤逻辑。正则表达式的作用...

2020-02-26 11:44:05 195

原创 爬虫入门:XPATH

XPATH入门标识符作用节点名获取节点的所有子节点@获取属性/从根节点获取//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置.获取当前节点…获取当前节点的父节点可以通过组合使用缩小搜索的范围以下面的图片为例子:元素节点:元素==标签 strong属性节点:div标签中的class=“cover-wp“...

2020-02-25 12:00:33 233

原创 Java大作业之餐厅管理系统

餐厅管理系统通过构思将界面分为五个部分,分别是北部的餐厅名称、西部的菜式导航、中部的菜式选择、南部的操作按钮、和东部的菜单显示。食堂订餐系统解决了现实中存在的订餐问题,可以自由订退餐,实时扣款,解决用餐排队问题,减少人力成本。开发环境:JDK-11.0.2_windows-x64_bin开发工具:Eclipse使用界面:使用说明:登录账号密码都为:123;要修改登录账号和密...

2020-02-24 14:47:15 8097 24

原创 C语言大作业之班费管理系统

班费管理系统前言:开发环境:Visual Studio Community 2017;1.储存班级收支的信息;2.增加班费信息;3.删除班费信息;4.改变班费信息;5.查找班费信息;6.实现自动计算余额;完成了1.储存信息;2.增加信息;(不能选择位置添加、时间的获取只能通过手动输入)3.删除信息;4.改变信息;(不能选择信息修改)5.查找信息;(不能按照规定排序)6.自动计算可...

2020-02-23 11:30:49 4546 1

hadoop环境设置.pdf

大数据前提:hadoop环境设置。 Hadoop 的安装方式有三种模式:单机模式(Standalone Mode)、伪分布式模式(Pseudo- Distributed Mode)、完全分布式模式(Fully-Distributed Mode)

2020-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除