Urlli-CSDN博客

原创 Leetcode100题首轮刷题日记

今日份又完成3个，虽然是两个简单和1个中等，不得不说。中等有些思想能懂，但是自己上手后对于部份结构的使用不熟和代码细节真的还欠缺考虑，后面加油吧。两个简单就不写了，思想也比较简单，重点要回顾总结一下中等难度：394，字符串解码给定一个经过编码的字符串，返回它解码后的字符串。编码规则为: k[encoded_string]，表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，且输入的方括

2022-05-23 16:35:59 229

原创 Leetcode100题首轮刷题日记（回顾篇）

刷题之前先把这100道题里做过的回顾一下再开始今天的三道题。巩固一下。题1：两数之和class Solution { public int[] twoSum(int[] nums, int target) { int[] results=new int[2]; if (nums.length==0||nums==null){ return null; } Map<Integer,Integer> m

2022-05-19 13:32:42 389

原创清华数据挖掘：理论算法视频笔记

课程来源：清华大学-数据挖掘：理论与算法（国家级精品课）_哔哩哔哩 (゜-゜)つロ干杯~-bilibili数据预处理数据挖掘的最重要的一环：数据预处理。算法则是其次。Data Preprocessing:Data Cleaning:Fill in missing values Correct inconsistent data Identify outliters and noisy dataData Integration:Combine data from differe

2021-03-29 16:14:00 501

原创 2021-3-9 数据挖掘精简介绍

Before：保持一周1~2篇的blog记录，从此周开始，目前3月的计划是完成文献综述，所以本周主要内容即阅读文献。什么是数据挖掘？数据挖掘指的是从数量极其广大的数据中通过各种特定算法来搜索其中隐藏的信息的过程，其属于计算机科学的一种，有综合统计学、信息检索等方面的内容。挖掘过程作为一个线性过程，主要包括数据清洗、特征提取、算法设计等阶段。可参阅：(22 封私信 / 12 条消息) 什么是数据挖掘？ - 知乎 (zhihu.com)数据挖掘的过程数据收集数据预处理分...

2021-03-09 10:28:34 259

原创 2020-11-19 hbase 百万数据插入性能检测

如题↑，记录一次关于hbase插入性能的检测代码如下：package hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import org.junit.Before;import org.j

2020-11-11 16:37:17 466

原创 2020-11-02 HBase的体系结构

先读图，再看文理解简述架构图：Zookeeper，作为分布式的协调。RegionServer也会把自己的信息写到ZooKeeper中。 HDFS是Hbase运行的底层文件系统 RegionServer，理解为数据节点，存储数据的。 Master RegionServer要实时的向Master报告信息。Master知道全局的RegionServer运行情况，可以控制RegionServer的故障转移和Region的切分。细化架构图：逻辑结构(模型) 表（table）

2020-11-03 08:44:20 221

原创 2020 10 27 数据库写入demo:商品统计ShopCount

主要仍然分了三类重要的class，此处还有个特殊的方便数据库操作的自定义Writable类。首先展示一下数据吧，本次demo只是为了验证操作的正确性，所以有无异常的结果即达到要求，数据如下：2018-06-02 11:12:21,12321323423,裤子和衣服和洗漱品,陕西省2018-06-01 11:12:21,12321323423,裤子和衣服和洗漱品,陕西省2018-01-03 11:12:21,12321323423,裤子和衣服和洗漱品,陕西省2018-06-02 11:12:21

2020-10-27 20:46:54 472 2

原创 2020-10-27 Hive简介与安装

1.什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。底层存储在HDFS上。Hive的优点是学习成本低，同样可以作为查询引擎通过类似SQL语句（hql）实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。OLTP与OLAPOLTP（on-line transaction processing）翻译为联机事务处理， O

2020-10-27 20:34:58 265

转载 2020-10-14 转载：大数据中数据倾斜问题与解决办法

一、Hadoop中的数据倾斜：什么是数据倾斜？（见下图）简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成（“aaa”,1）的形式，然后在reduce 阶段进行 value 相加，得出 “aaa” 出现的次数。若进行 word count 的文本有100G，其中 80G 全部是 “aaa” 剩下 20G 是其余单词，那就会形成 80G 的数据量交给一个 reduce 进行相加，.

2020-10-14 17:12:33 354 2

转载 2020-10-13 转载：Map Task数目的确定和Reduce Task数目的指定

注意标题：Map Task数目的确定和Reduce Task数目的指定————自然得到结论，前者是后者决定的，后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定：1）MapReduce从HDFS中分割读取Split文件，通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元，一个Split文件对应一个Map Task2）默认情况下HDFS种的一个block，对应一个Split。3）当执行Wordcount时..

2020-10-13 21:14:59 245

原创 2020-10-12 《Hadoop 权威指南》学习日记之，读写的细节

近日阅读了《Hadoop权威指南第三版》，在第3.6小节数据流部分，对文件读取和文件写入进行了剖析，现在准备对这段内容做些重点描述，留下自己的疑惑，今后有所理解后再回头来解决，如果能有大佬在我这儿评论留言解答我的疑惑那就太美滋滋了嘿嘿嘿。anyway1.剖析文件读取理解在这个过程中，HDFS，namenode与datanode之间的数据流是什么样的。流程图截取自书：客户端通过调用FileSyste对象的open（）方法打开希望读取的文件 DistributedSystem通过使用R

2020-10-13 15:50:56 335 2

原创 2020.10.7 mapreduce框架的demo测试：WordCount(词频统计) 逻辑实现

先总结MapReduce的编程规范Map阶段2个步骤设置InputFormat类，将数据切分为Key-Value（K1与V1）对，输入到第二布自定义Map逻辑，将第一步的结果转变为另外的Key-Value（K2与V2）对，输出结果Shuffle阶段4个步骤对输出的Key-Value进行分区对不同分区的数据按照相同的key排序（可选）对分组过的数据初步规约，降低数据的网络拷贝对数据进行分组，相同的Key的Value放入一个集合中Reduce阶段的2个步骤对多个Map任务的结

2020-10-08 14:35:54 309

原创 2020.10.6 mapreduce小demo分析：（WordCount）词数统计

今天完成的小demo，通过mapreduce编程完成对文档词频统计问题分析：在本地某路径下建立文档wrods.csv（此处我用的csv文件，其他的也行，反正要有String在里面），例如：此文件放置于：E:\data\mapreduce\input中，通过编写的mapreduce程序完成统计，结果为：图解流程：下图只是演示，内容和我所使用内容无关，理解过程即可首先words文档内按行存储了若干字段，将若干字段按行进行分割，每行交给datanode节点去做逻辑实现，java程序就是

2020-10-06 20:06:27 366

原创 2020.10.5 8天假期均白给之今天遇到的问题：关于正确启动HA集群的步骤

前言：人家研究生都有8天假期，我不配，我学校不比人家好，所以我只能学习（手动微笑）HA配置如下namenode: demo01 demo02 datanode: demo03 demo04 demo05 journalnode demo03 demo04 demo05 zookeeper demo03 demo04 demo05 resourcemanager demo01 demo02 nodemanager demo03 de...

2020-10-05 20:36:00 270

转载 2020-10-02

JournalNode的作用NameNode之间共享数据（NFS 、Quorum Journal Node（用得多））两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应用于自己的命名空间。standby可以确保在集群出错时，命名空间状态已经完全

2020-10-02 21:25:08 291

原创 2020.9.25 Hdfs进行API操作时遇到wintuils和log4j相关错误问题

问题描述：在搭配好复杂的hadoop完全分布式版的配置后进行一个简单的测试demo：package com.demo.bigdata.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.a

2020-09-25 23:22:09 327

原创 2020.09.21 关于Vmware每次启动都黑屏，winsock reset没用问题的解决方法

问题阐述：使用某公众号下载本着“开源精神”的vmware 15pro，在载入CentOS-6.5-x86_64-bin-DVD1.iso中遇到了黑屏问题，起初重新配置了虚拟机的处理核，运行内存，可分配内存，均没什么改变，也用过网上一直说的netsh winsock reset，确实有过一次用，但是当我配置了一晚上后第二天再开电脑又是黑屏，更换过ubuntu-20.04.1-desktop-amd64.iso镜像文件试试看是不是之前的centos镜像文件的问题，发现还是一样的黑屏，无法运行。8提有多气人了??

2020-09-21 21:22:12 594

Urlli的博客

原创 Leetcode100题首轮刷题日记

原创 Leetcode100题首轮刷题日记（回顾篇）

原创清华数据挖掘：理论算法视频笔记

原创 2021-3-9 数据挖掘精简介绍

原创 2020-11-19 hbase 百万数据插入性能检测

原创 2020-11-02 HBase的体系结构

原创 2020 10 27 数据库写入demo:商品统计ShopCount

原创 2020-10-27 Hive简介与安装

转载 2020-10-14 转载：大数据中数据倾斜问题与解决办法

转载 2020-10-13 转载：Map Task数目的确定和Reduce Task数目的指定

原创 2020-10-12 《Hadoop 权威指南》学习日记之，读写的细节

原创 2020.10.7 mapreduce框架的demo测试：WordCount(词频统计) 逻辑实现

原创 2020.10.6 mapreduce小demo分析：（WordCount）词数统计

原创 2020.10.5 8天假期均白给之今天遇到的问题：关于正确启动HA集群的步骤

转载 2020-10-02

原创 2020.9.25 Hdfs进行API操作时遇到wintuils和log4j相关错误问题

原创 2020.09.21 关于Vmware每次启动都黑屏，winsock reset没用问题的解决方法

原创 2019.09.21 hadoop单机版安装关于免密设置中问题的总结整理

原创冒泡排序，选择排序，插入排序简单对比

原创 java作业练习4:KFC前台订餐系统（版本1）

原创 java作业练习：24点

原创作业练习：输入两个数（三个）求其最小公约数和最大公倍数

原创作业练习：三天打鱼两天晒网

原创编程小知识

原创 Python列表操作笔记——删除

原创初学python心得

空空如也

空空如也