自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Leetcode100题首轮刷题日记

今日份又完成3个,虽然是两个简单和1个中等,不得不说。中等有些思想能懂,但是自己上手后对于部份结构的使用不熟和代码细节真的还欠缺考虑,后面加油吧。两个简单就不写了,思想也比较简单,重点要回顾总结一下中等难度:394,字符串解码给定一个经过编码的字符串,返回它解码后的字符串。编码规则为: k[encoded_string],表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。你可以认为输入字符串总是有效的;输入字符串中没有额外的空格,且输入的方括

2022-05-23 16:35:59 161

原创 Leetcode100题首轮刷题日记(回顾篇)

刷题之前先把这100道题里做过的回顾一下再开始今天的三道题。巩固一下。题1:两数之和class Solution { public int[] twoSum(int[] nums, int target) { int[] results=new int[2]; if (nums.length==0||nums==null){ return null; } Map<Integer,Integer> m

2022-05-19 13:32:42 275

原创 清华数据挖掘:理论算法 视频笔记

课程来源:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili数据预处理数据挖掘的最重要的一环:数据预处理。算法则是其次。Data Preprocessing:Data Cleaning:Fill in missing values Correct inconsistent data Identify outliters and noisy dataData Integration:Combine data from differe

2021-03-29 16:14:00 383

原创 2021-3-9 数据挖掘精简介绍

Before:保持一周1~2篇的blog记录,从此周开始,目前3月的计划是完成文献综述,所以本周主要内容即阅读文献。什么是数据挖掘? 数据挖掘指的是从数量极其广大的数据中通过各种特定算法来搜索其中隐藏的信息的过程,其属于计算机科学的一种,有综合统计学、信息检索等方面的内容。挖掘过程作为一个线性过程,主要包括数据清洗、特征提取、算法设计等阶段。可参阅:(22 封私信 / 12 条消息) 什么是数据挖掘? - 知乎 (zhihu.com)数据挖掘的过程数据收集 数据预处理 分...

2021-03-09 10:28:34 208

原创 2020-11-19 hbase 百万数据插入性能检测

如题↑,记录一次关于hbase插入性能的检测代码如下:package hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import org.junit.Before;import org.j

2020-11-11 16:37:17 387

原创 2020-11-02 HBase的体系结构

先读图,再看文理解简述架构图:Zookeeper,作为分布式的协调。RegionServer也会把自己的信息写到ZooKeeper中。 HDFS是Hbase运行的底层文件系统 RegionServer,理解为数据节点,存储数据的。 Master RegionServer要实时的向Master报告信息。Master知道全局的RegionServer运行情况,可以控制RegionServer的故障转移和Region的切分。细化架构图:逻辑结构(模型) 表(table)

2020-11-03 08:44:20 152

原创 2020 10 27 数据库写入demo:商品统计ShopCount

主要仍然分了三类重要的class,此处还有个特殊的方便数据库操作的自定义Writable类。首先展示一下数据吧,本次demo只是为了验证操作的正确性,所以有无异常的结果即达到要求,数据如下:2018-06-02 11:12:21,12321323423,裤子和衣服和洗漱品,陕西省2018-06-01 11:12:21,12321323423,裤子和衣服和洗漱品,陕西省2018-01-03 11:12:21,12321323423,裤子和衣服和洗漱品,陕西省2018-06-02 11:12:21

2020-10-27 20:46:54 384 2

原创 2020-10-27 Hive简介与安装

1.什么是Hive?Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。底层存储在HDFS上。Hive的优点是学习成本低,同样可以作为查询引擎通过类似SQL语句(hql)实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。OLTP与OLAPOLTP(on-line transaction processing)翻译为联机事务处理, O

2020-10-27 20:34:58 189

转载 2020-10-14 转载: 大数据中数据倾斜问题与解决办法

一、Hadoop中的数据倾斜:什么是数据倾斜?(见下图)简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 20G 是其余单词,那就会形成 80G 的数据量交给一个 reduce 进行相加,.

2020-10-14 17:12:33 265 2

转载 2020-10-13 转载:Map Task数目的确定和Reduce Task数目的指定

注意标题:Map Task数目的确定和Reduce Task数目的指定————自然得到结论,前者是后者决定的,后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定:1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元,一个Split文件对应一个Map Task2)默认情况下HDFS种的一个block,对应一个Split。3)当执行Wordcount时..

2020-10-13 21:14:59 172

原创 2020-10-12 《Hadoop 权威指南》学习日记之,读写的细节

近日阅读了《Hadoop权威指南第三版》,在第3.6小节数据流部分,对文件读取和文件写入进行了剖析,现在准备对这段内容做些重点描述,留下自己的疑惑,今后有所理解后再回头来解决,如果能有大佬在我这儿评论留言解答我的疑惑那就太美滋滋了嘿嘿嘿。anyway1.剖析文件读取理解在这个过程中,HDFS,namenode与datanode之间的数据流是什么样的。流程图截取自书:客户端通过调用FileSyste对象的open()方法打开希望读取的文件 DistributedSystem通过使用R

2020-10-13 15:50:56 259 2

原创 2020.10.7 mapreduce框架的demo测试:WordCount(词频统计) 逻辑实现

先总结MapReduce的编程规范Map阶段2个步骤设置InputFormat类,将数据切分为Key-Value(K1与V1)对,输入到第二布 自定义Map逻辑,将第一步的结果转变为另外的Key-Value(K2与V2)对,输出结果Shuffle阶段4个步骤对输出的Key-Value进行分区 对不同分区的数据按照相同的key排序 (可选)对分组过的数据初步规约,降低数据的网络拷贝 对数据进行分组,相同的Key的Value放入一个集合中Reduce阶段的2个步骤对多个Map任务的结

2020-10-08 14:35:54 234

原创 2020.10.6 mapreduce小demo分析:(WordCount)词数统计

今天完成的小demo,通过mapreduce编程完成对文档词频统计问题分析:在本地某路径下建立文档wrods.csv(此处我用的csv文件,其他的也行,反正要有String在里面),例如:此文件放置于:E:\data\mapreduce\input中,通过编写的mapreduce程序完成统计,结果为:图解流程:下图只是演示,内容和我所使用内容无关,理解过程即可首先words文档内按行存储了若干字段,将若干字段按行进行分割,每行交给datanode节点去做逻辑实现,java程序就是

2020-10-06 20:06:27 284

原创 2020.10.5 8天假期均白给之今天遇到的问题:关于正确启动HA集群的步骤

前言:人家研究生都有8天假期,我不配,我学校不比人家好,所以我只能学习(手动微笑)HA配置如下namenode: demo01 demo02 datanode: demo03 demo04 demo05 journalnode demo03 demo04 demo05 zookeeper demo03 demo04 demo05 resourcemanager demo01 demo02 nodemanager demo03 de...

2020-10-05 20:36:00 205

转载 2020-10-02

JournalNode的作用NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全

2020-10-02 21:25:08 226

原创 2020.9.25 Hdfs进行API操作时遇到wintuils和log4j相关错误问题

问题描述:在搭配好复杂的hadoop完全分布式版的配置后进行一个简单的测试demo:package com.demo.bigdata.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.a

2020-09-25 23:22:09 241

原创 2020.09.21 关于Vmware每次启动都黑屏,winsock reset没用问题的解决方法

问题阐述:使用某公众号下载本着“开源精神”的vmware 15pro,在载入CentOS-6.5-x86_64-bin-DVD1.iso中遇到了黑屏问题,起初重新配置了虚拟机的处理核,运行内存,可分配内存,均没什么改变,也用过网上一直说的netsh winsock reset,确实有过一次用,但是当我配置了一晚上后第二天再开电脑又是黑屏,更换过ubuntu-20.04.1-desktop-amd64.iso镜像文件试试看是不是之前的centos镜像文件的问题,发现还是一样的黑屏,无法运行。8提有多气人了??

2020-09-21 21:22:12 537

原创 2019.09.21 hadoop单机版安装 关于免密设置中问题的总结整理

许久未写blog了。研究生了已经,不能马马虎虎的学习了,做记录的去学更有帮助吧。本次遇到的问题困扰我一宿,作为hadoop初学者配置环境这块,真的没有一个好的指导很让人头痛。先说明我的版本信息:centos6.5 64 hadoop-2.6.4-bin_x64.tar.gz vmware15.5 pro jdk-8u161-linux-x64.tar.gz(同win10的java)遇到的问题:当到了给Hadoop配置免密登录设置时,意识到在.ssh/下的文件中没有knows_hosts文

2020-09-21 21:03:21 598

原创 冒泡排序,选择排序,插入排序简单对比

import java.awt.List;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.util.ArrayList;import java.util.Random;/***@作者:Flyige*@时间:2018/12/1...

2018-12-01 01:17:53 327

原创 java作业练习4:KFC前台订餐系统(版本1)

作业题目:KFC前台订餐系统(版本1)所用语言:java所用类:              其他文件:bills.txt程序介绍:用户根据目前电脑时段选择早餐,正餐,宵夜的不同菜单,用户只能在这个范围内点餐,每次加餐会更新顾客的菜单最后输入给的钱自动找零。将“发票”保存至bills.txt中,整个类的设计过程采用了简单工厂模式和单例模式。代码如下:import KFCMe...

2018-10-27 12:32:17 1049 1

原创 java作业练习:24点

作业题目:24点游戏所用语言:java所用类:Main    MainTest其他文件:null程序流程:Main方法中开始执行程序,获得一组范围由1到13的(闭区间)4张牌组,通过穷举法把四张牌两两运算(加减乘除)得出最后结果是24的卡组视为胜出。若没有得出24的卡组视为失败,随即下一组继续运算直到发现存在24的卡组,然后输出不带重复的得出24的数学表达式。代码如下:i...

2018-09-29 19:50:10 379

原创 作业练习:输入两个数(三个)求其最小公约数和最大公倍数

作业题目:输入两个数(三个)求其最小公约数和最大公倍数所用语言:java所用类:Main其他文件:无程序流程:Main方法中开始执行程序,输入三个数,根据两个方法:方法1:计算输入的前两个数的最大公约数和最小公倍数,利用了代码如下:import java.util.Scanner;public class Main { public static void m...

2018-09-08 17:02:55 595

原创 作业练习:三天打鱼两天晒网

作业题目:三天打鱼两天晒网所用语言:java所用类:Main    TimeBean其他文件:times.txt results.txt程序流程:Main方法中开始执行程序,BufferedReader的对象br将每读取到的一行数据放入TimeBean的对象中存入time,调用TimeBean的check方法判断日期、格式、渔夫的状态等,返回结果到BufferedWriter的对象...

2018-08-29 09:54:59 600

原创 编程小知识

年份的正则表达式:从0000年到9999年的判断范围,区分了平年闰年(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26]...

2018-08-28 14:52:36 206

原创 Python列表操作笔记——删除

三种删除方式:del()这是语句不是方法、pop()、remove()一:remove(要删除元素名字)删除所要删除的元素,很直接,快准狠二:del list[所要删除元素下标]有条件去删选三:pop()python列表其实是用栈的方式去存储。所以就以栈的原则(先入后出):这种情况,先删除后查询的常见考试问题,嗯嗯。要注意的是:pop语句如果不声明,那就是从后往前删(或者从整个列表的从上而下的顶部...

2018-05-14 00:19:15 644

原创 初学python心得

首次接触编程语言C语言之后学了c++,觉得c++好用的呀批,然而指针让我这个逻辑思维需要很好锻炼的人很头大。学了JAVA之后感觉这个玩意儿又好用的呀批,掌握了面向对象的编程原则后,编程变得有趣了起来,虽然java也只学了java se,听说安卓领域已经挤得要命了,所以就避其锋芒准备在ee上下功夫,突然间~听说大数据火的呀批。赶紧去看了python,一开始买了《深入浅出python》这本书(话说这个...

2018-05-09 20:26:54 1176 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除