- 博客(35)
- 资源 (1)
- 收藏
- 关注
原创 HBase读取流程
四个步骤Client-Server读取交互逻辑、Server端Scan框架体系、过滤淘汰不符合查询条件的HFile、从HFile中读取待查找Key1、Client-Server读取交互逻辑 客户端和服务器的交互,Client首先会从Zookeeper中获取元数据hbase:meta表所在的RegionServer,然后根据待读写rowkey发送请求到元数据所在Regi...
2021-12-20 11:18:41 346
原创 HBase:Meta表详解
Meta的必要性: HBase一张表的数据是由多个Region构成,而这些Region是分布在整个集群上的RegionServer上的。那么客户端在做任何数据操作时,都要确定数据在哪些Region上,然后再根据Region和RegionServer的对应关系,去相应的RegionServer中读取数据。 hbase:meta就是专门用来存储和Region相关的信息,这里的hbase表示namespace,meta是系统表,因此用全局统一的命名空间;...
2021-12-14 19:54:19 6034
原创 HBase在HDFS中的文件布局
在shell端查询得到的文件布局如下:(1) .tmp:临时文件目录,主要用于表的创建和删除操作;(2) MasterrProcWALs:(3) WAL:存储集群所有RegionServer的HLog日志文件;(4) archive:文件归档目录;(5) data:集群中所有Region的HFile数据。HFile文件在HDFS文件系统中,data目录下的完整目录如下:/hbase /data /命名空间 /表名 /Region名称 /列簇名 /HFile文件名如:/HBa.
2021-12-14 18:41:27 1269
原创 HBase体系结构
1、HBase客户端HBase客户端在访问数据行:(1)通过元数据表定位目标数据所在RegionServer;(2)发送请求到该RegionServer。同时这些元数据会被缓存在客户端本地,以方便之后的请求访问。(若数据分片导致发生迁移,需要重新请求最新的元数据并缓存到本地) 元数据表是什么?hbase:meta,元数据表中存储了哪些信息:一张表有哪些reigon、region分别分配到哪些regionserve上、每个reigon的startkey和stopke...
2021-12-14 16:50:09 934
原创 Hadoop异构存储
Hadoop查看存储类型:命令:hdfs storagepolicies -listPoliciesID Name 存储类型 降级机制(原本) 降级机制(副本) 1 PROVIDED PROVIDED DISK PROVIDED DISK PROVIDED DISK 2 COLD ARCHIVE 无 无 5 WARM
2021-12-14 09:26:18 1235
原创 Hadoop-Hbase搭建过程中遇到的问题总结
1、多次格式化NameNode,导致DataNode不能启动多次将namenode格式化,导致namenode和datanode的clusterID不一致从而无法启动datanode解决方案方法1、打开core-site.xml中设置的hadoop.tmp.dir的位置,手动将该位置中dfs/data/current/VERSION的文件中的clusterID均改为主节点的clusterID;方法2、手动将所有服务器中该位置中的文件均删除,然后重新格式化NameNode,hadoop n
2021-12-07 20:48:49 703
原创 最大值 、最小值函数
#include <iostream> #include <string>#include <algorithm>using namespace std;struct grade{ string student; string subject; int number;};int main(){ //初始化、输入模块 ...
2021-04-27 09:31:05 553
原创 matlab相关知识积累
1. r=size(A,1) 该语句返回:矩阵A的行数 c=size(A,2) 该语句返回:矩阵A的列数2. ~= 不等于3.eye(n) 返回n*n的单位矩阵4. ones(n)产生一个全1的矩阵5.X(c+1:c+a,:)提取矩阵X第c+1到c+5行所有列的元素6. B=repmat(A,2,3)A=[1,2;3,4]B=...
2021-04-26 22:16:29 63
原创 机器学习、CNN的区别与联系
机器学习之CNNCNN与机器学习有什么关系:一.模式识别/机器学习/深度学习简介模式识别(Pattern recognition) 机器学习(machine learning)和深度学习(seep learning)分别代表了三种不同的思想流派。1. 模式识别区分“3”和“B”,需要专门设计一些分类规则,如滤波,边缘检测和形态学处理等技术,设计到图像处理的专业知识。 2. 机...
2021-04-26 22:15:52 1552
原创 支持向量机(SVM)的学习
在SVM中,我们优化的目标是最大化分类间隔,此处间隔是指两个分离的超平面(决策边界)间的距离。而最靠近超平面的训练样本叫做支持向量(support vector)//待插入图片 取倒数,最小化处理1/2||W||(二次规划) 控制对错误分类的惩罚程度,使用参数C来控制间隔的大小 以上就是线性SVM的基本概念 那...
2021-04-26 22:14:44 121
原创 数字图像处理——opencv入门
OpenCV介绍这是一篇关于opencv的学习指南。首先,opencv可以运行于linux平台、windows平台、Android平台及iOS平台。在这里,我选择windows平台进行opencv环境的配置。注意,要使用opencv库,您有两个选择。一是通过使用预构建的库进行安装,或者通过源文件中创建自己的库进行安装。我们选择了法一,需要在最新的Microsoft VIsu...
2021-04-26 22:13:10 1082
原创 入门NLP——Attention
通俗理解word2vechttps://www.jianshu.com/p/471d9bfbd72f通俗理解自注意力(self-attention)https://www.jianshu.com/p/c6a090af4b30Self Attention和Multi-Head Attention的原理和实现 https://blog.csdn.net/qq_37394634/article/details/102679096命名实体识别相关论文中常出现的mention该如何理解?htt...
2021-04-26 22:09:31 177
原创 PyQt —— 使用pipenv搭建pyqt运行时的虚拟环境
1.cmd安装pipenvpip install -i https://pypi.tuna.tsinghua.edu.cn/simple pipenv2. 创建一个空文件夹 暂时命名为 PyQt 点进cmd,并进入该文件路径中 如 F:\PythonProject\PyQt5 pipenv --threepipenv shell //激活虚拟环境 然...
2021-04-26 22:07:14 338
原创 使用TorchText库进行文本分类
使用Torchtext库进行文本分类(官方的例子)配置:torch 1.8.1+cputorchtext 0.9.1官方文档的链接:https://pytorch.org/tutorials/beginner/text_sentiment_ngrams_tutorial.html文章中关于AG_NEWS数据集一会儿能加载出来,一会儿加载不出来(什么时候是否需要splite),我也没搞懂,感觉不是重点,有大佬懂的话可以在评论区讲一下...
2021-04-26 14:47:48 1754 5
原创 关系抽取数据集
NYT-10 SemEval2010 详见这篇文件:https://zhuanlan.zhihu.com/p/189254722医疗相关的数据集:I2B2数据集,其中2010年的数据和关系抽取相关GAD 疾病和基因相关的关系抽取数据集EU-ADR疾病和基因相关的关系抽取数据集!!!之后有时间补一下对各个数据集的介绍吧!...
2021-04-14 16:48:59 1217
原创 深度学习一些知识点链接
一 Sequential模型https://www.cnblogs.com/wj-1314/p/9967480.html二 网络层Dense层 Dropout层 三 神经网络的激活函数https://blog.csdn.net/tianyaleixiaowu/article/details/80775295四 随机梯度下降法https://blog.csdn.net/qq_38150441/article/details/80533891...
2020-09-19 13:18:02 81
转载 Tensorflow中dense(全连接层)各项参数
全连接层 tf.layers.denseinputs: 输入数据,2维tensor.units: 该层的神经单元结点数。activation: 激活函数.use_bias: Boolean型,是否使用偏置项.kernel_initializer: 卷积核的初始化器.bias_initializer: 偏置项的初始化器,默认初始化为0.kernel_regularizer: 卷积核化的正则化,可选.bias_regularizer: 偏置项的正则化,可选.activity_regulari...
2020-09-18 22:27:57 2887
原创 pymysql数据库连接相关知识
为了方便下次地使用,现将其记录下来:主要思路是将其封装起来:import pymysqlclass MysqlOperation(): def __init__(self, host='localhost', user='root', pwd='', port=3306, db='test'): self.host = host self....
2020-05-04 16:49:15 187
原创 python文件打包命令
1. 在python script 目录里面,安装 pyinstaller包2.cmd 进入程序所在目录3.pyinstaller -F -w main.py4. 进入程序所在目录/dist/main.exe 双击即可打开
2020-04-22 23:40:22 251
原创 层序遍历序列和中序遍历序列构建二叉树
输入节点个数后两行分别输入层次遍历序列、中序遍历序列使用build()函数建立二叉树,先找到根节点,再划分左右子树,分别构建两棵子树。并将左右节点分别保存至lch、rch数组中,且保存的是其下标(无左节点时,lch=0;无右孩子时,rch=0)第一个根节点时根节点的第一个节点,之后子树的根节点寻找办法是,根据已经划分左右子树在中序遍历的序列中,找到第一个在层序遍历中找到的结点,...
2020-04-02 17:22:33 1580
原创 解决ui转换为py文件时报错的问题
#!/usr/bin/python3# -*- coding: utf-8 -*-import sys# 这里我们提供必要的引用。基本控件位于pyqt5.qtwidgets模块中。from PyQt5.QtWidgets import QApplication, QMainWindowimport loginif __name__ == '__main__': # 每一...
2020-03-17 15:07:13 1559
原创 解决pycharm下载速度太慢的问题
命令:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xxx常用库链接:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/
2020-02-17 23:14:38 7999
原创 char 和 int ;大小写字母的相互转换
总是忘记,总是报错,这次整理了,下次自己看就方便了c++char 转换为int:a-'0'int转换为 char:a+'0'大写到小写 -'A'+'a'小写到大写 -'a'+'A'其他语言的转换待补充...
2020-01-31 16:27:43 920
原创 PAT 1030 完美数列
这道题是为数不多的几道pat的较难通过的题目了自己写的,实例四 通过不了 原因:自己的时间复杂度是O(n^2),超时 解决方案: 更新ans,双层循环,加速,思想是: 在选定的ans中,关键要找出最大的ans,由前一个ans,下一个a[i],在j=I+ans时,a[j]如果满足,则...
2020-01-31 15:17:03 198
原创 PAT 1007 素数对猜想
我们定义dn为:dn=pn+1−pn,其中pi是第i个素数。显然有d1=1,且对于n>1有dn是偶数。“素数对猜想”认为“存在无穷多对相邻且差为2的素数”。现给定任意正整数N(<10^5),请计算不超过N的满足猜想的素数对的个数。题目一开始不太能理解,其实很简单,就是:比如 以输入20为例子,20以内的素数依此为:1、2...
2020-01-11 14:59:54 123
原创 maxelement()、minelement()函数获取最大值、最小值及其索引
对普通数组获取最大值、最小值以及他们的位置注意头文件,#include <algorithm>#include <iostream> #include <string>#include <algorithm>using namespace std;struct grade{ string student; string ...
2020-01-05 17:26:25 877
原创 最小生成树(prim)和最短路径(dijstra)
两个著名的贪心算法对比两个算法(这里讨论均为无向图)相同点:无疑都是将顶点划分为s集合和v-s集合,首先都将源点加入到s集合,其余结点在v-s集合中。接着找加入到s集合的结点中哪个结点的哪条边权值最小(局部最优,贪心思想的体现),且这条边对应的另一个结点还未加入到s集合中;将找到的这个结点加入到s集合中,故要更新s集合顶点到v-s集合的结点权值数值,用数组dist[]表示。一直不断循环下去...
2019-10-21 17:02:52 383
原创 2020年考研数据结构复习——单链表
2020年考研数据结构复习——单链表代码#include <iostream>#include <stdio.h>#include <stdlib.h>#include <cstring>#include "malloc.h"//单链表存储结构typedef struct LNode{ int data; stru...
2019-07-19 21:45:15 346
原创 2020年考研数据结构复习——顺序表
2020年考研数据结构复习——线性表(顺序存储结构)用c++ 编写 c代码代码#include <iostream>#include <stdio.h>#include <cstring>#include "malloc.h"#define LISTSIZE 100 //存储空间最大分配量typedef struct{ //静态存储分配...
2019-07-16 10:14:37 172
原创 STL模板库之优先队列的用法
一般只有一个数的队列优先排序的代码如下(很简单)#include<iostream>#include<functional>#include<queue>#include<vector>using namespace std;int main(){ const int len = 5; int i; in...
2018-10-23 15:28:03 348
原创 PAT乙级 1015 德才论+STL模板库之sort()对结构体排序用法
#include <algorithm> 头文件以下为对结构体指针所指内容进行排序,sort(a+i,a+n,comp)模板按降序排序第一、二个参数分别表示起始排序的地址第三个参数是一个函数名,表示对结构体排序的依据如果不对指针进行拷贝构造,则排序时会使得原结构体的顺序也会发生改变。comp指的是配套的一个函数,也就是处理两个结构体时,比较的策略,返回值是bool类...
2018-10-23 15:12:52 366
原创 动态规划解0-1背包问题
之前有写贪心法求解0-1背包问题,贪心法思路比较直接,而动态规划则没有那么容易理解。两种算法思想策略对比贪心法: 每一步都取局部最优解动态规划: 不确定当前所放入背包的物品是否会成为最优解成分之一? 当 j < w[i] 时(当前容重小于物品重量的), m(i, j) = m(i-1, j); 当 j >= w[i] 时(当前容重大于物...
2018-09-27 22:59:04 262
原创 固定分区、可变式分区分配及段页式分区分配c代码实现
本实验通过三种分区分配的方法,分别是固定分区分配、可变分区分配及段页式分区分配,从连续内存分区分配方式到离散分区分配方式。段页式的采用减少了碎片的产生,极大地提高了内存空间的利用率,但是却增加了访存的次数,因此,可以采用快表机制,减少访存的次数,对段页式存储管理进行优化。 1、固定分区分配回收内存空间代码#include <stdio.h>#include &...
2018-05-30 09:20:18 5159
原创 三次样条c++代码实现
三次样条是一种效果很好的分段插值方法,不仅光滑性好,同时也避免了高次插值龙格振荡现象的发生。首先先对三次样条插值思想做简单的介绍 干货见下:使用的例子是龙格函数的数据#include<iostream>#include<math.h>using namespace std;int main(){ double a[21...
2018-05-30 07:37:09 5095 1
使用mvc编写的一个简易的购物管理系统
2018-12-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人