- 博客(312)
- 资源 (8)
- 收藏
- 关注
原创 Python读取文件并写入到MaxCompute表
使用Python,或者使用DataWorks创建PyODPS3节点,读取FTP或者远程FTP文件,然后写入到MaxCompute指定表的分区中。
2024-02-04 16:00:02 538 1
原创 Hive配置参数解释
Hive配置参数的介绍和解释,包括对应MapReduce引擎和对应Tez引擎的,同时也记录了在使用Tez引擎过程中的报错解决办法。
2022-10-31 10:55:35 2568
原创 HBase数据模型与原理
HBase(Hadoop Database)数据可以放在单主机上,非HDFS上,但不是分布式的。一般都是放在HDFS上。HBase需要Zookeeper。结构体系Master:为RegionServer分配Region;负责RegionServer的负载均衡;发现失效的RegionServer便重新分配其上的Region;管理用户对table的增删改操作。看着作用不是很大,只要活着即可。RegionServer:维护Region,处理对这些Region的IO请求;负责切分在运行过程中变得过大的Reg
2022-04-27 17:38:29 1289
原创 Zookeeper原理及算法模型
概述Zookeeper(下简称zk)的基本数据模型为一个树形结构(类似文件系统结构)。zk的节点(znode)分为临时节点和永久节点。临时节点对当前session有效,永久节点永久有效。(同HIVE UDF)。永久节点下面可以挂子节点,临时节点下面不能再挂任何节点。znode特点:znode:每一个节点都有一个id,id不会重复;每一个id都有一个父id(pid)。每一个节点上的数据发生了变化,这时候会引发数据版本号cversion变化(版本号+1)znode上面不要存放太大的数据(几个kb),
2021-08-26 16:34:35 543
原创 YARN的配置项
这里以Hadoop 2.7为例,如果新版有变更以新版为主。ResourceManager相关配置参数:yarn.resourcemanager.address:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yarn.resourcemanager.hostname}:8032yarn.resourcemanager.scheduler.address:ResourceManager 对ApplicationMaster暴露的访问地
2021-08-04 09:44:19 3357
原创 Numpy随机数生成
numpy.random比Python的random(只能一次生成一个样本值)性能好很多,更便捷,使用如下:import numpy as npnp.random.normal(size=(4, 4)) # 生成标准正态分布的随机样本shape为4*4数组np.random.randint(0, 1) # 从给定的上下限选择整数,这里0到1两个中选(np.abs([2, -1, 3]) > 0).argmax() # 返回第一个最大值的索引,argmax(1)指定轴1返回数组# 随机数生成
2021-08-03 10:13:50 1053
原创 Python库Numpy的代数计算
Numpy库,可以用二维数据代替矩阵,举例如下:x = np.array([[1., 2., 3.], [4., 5., 6.]])y = np.array([[6., 23.], [-1, 7], [8, 9]])x.dot(y) # 等价于np.dot(x, y),x的轴1和y的轴0的shape相等可相乘,所以x.dot(ones(3))是可行的,结果是array([6., 15.])from numpy.linalg import inv, qrx = np.random.randn(3,
2021-07-30 14:35:00 317
原创 我们需要一款新的社交平台
我相信很多人和我一样,忍受了小马哥家产品的绑架和殴打。需要一个新的社交模式,社交应该是公平的,自由的。人人都不喜欢一个基本没有创新的场所,凭借自己强大的后盾,进行模仿和拷贝并反咬别人而取胜,且受不到任何惩罚的恶棍不仅一直屹立不倒,还很逍遥自在。社交网络领域,我们经历过校园网变身的人人网,陌陌,现在的字节、抖音、B站、Soul,还有支付宝,但这些产品还没有真正开启颠覆微信的旅程。实际上,我们需要一个不一样的坚持者,不断的优化和迭代产品。因为我们拥有天资聪明的慧根,所以做起事来不太团结,本该几个企业合伙来
2021-07-29 16:14:23 217
原创 MySQL数据库导出导入数据
下面MySQL数据库导出方式可用于数据库的备份:# --host=localhost等于-h localhost;--user=-u;--port=-P;---password=-p。# --protocol=tcp/socket/pipe/memory(一般不指定),--all-databases=-A(导出全部数据库),--all-tablespaces=-Y导出全部表空间(就是数据之意),--no-tablespaces=-y不导出任何表空间信息,--add-drop-database每个数据
2021-07-13 09:46:15 288
原创 影子的印象
小时候,我喜欢在闲暇无事的时候观察各种各样的影子,自己的影子,房屋的影子,树的影子。慢慢的我还学会了用影子来判断时间,这不是大人告诉的,而是来自不断的观察和总结。长大以后,来到城市里上了大学,开始了工作,生活节奏也快了起来,没有时间去捕捉影子的乐趣,甚至连定睛观察的时候都很少。今天中午我像往常一样出门,因为早出发了一会,所以不赶时间。我坐在公车上,前方路口遇到了红灯,车突然停了下来,我向窗外望去,旁边车道也停着几辆车。我无意中注意到一辆小汽车的影子,因为是中午,影子很短,好像暗示着停留的时间很短一样。影
2021-01-31 13:58:56 378 2
原创 使用Reactor线程模型构建的简易网络通信聊天程序
服务端代码class NioReactorChatServer { ExecutorService workPool; // 这里提示可以私有,其实不可以 /* 底层pollWrapper是对channel(Socket)进行读写支持,所以一个channel注册到两个selector,则: 1. 若对应两个工作线程则要哪个先select到归哪个,这是猜测。 2. 其实这样似乎是没必要的,因为select一次之后,serverSocketChannel.accept之后就将
2021-01-26 16:25:40 226
原创 Hadoop资源调度框架Yarn介绍
Yarn(yet another resource negotiator)是分布式调度引擎,Hadoop2加进来的,算是抽象出来的。主要是监管节点上使用多少内存和CPU,然后把任务分配到空闲的节点,Yarn只做调度,不做计算。不光MapReduce可以使用Yarn,例如Spark,Storm,Tez,Mpi等很多也可以用于Yarn上。组件ResourceManager:资源管理者,一般和Nam...
2020-04-28 20:06:37 292
原创 Hadoop分布式文件系统HDFS介绍
HDFS全称是Hadoop Distributed File System。hdfs中的block的大小默认128MB(hadoop2.x,1.x是64MB),文件占用的大小不到128也占用128M。默认每个block有3个备份(dfs.replication可设),备份在一个rack(机架)上的不同节点,备份和原文件一般不在一个机架。如果一个节点宕掉,其中的block会生成新的到其他节点(宕机的...
2020-04-25 22:15:15 380
Linux操作系统笔记
2019-03-29
Code128条码编码规则与绘制
2012-10-21
获取汉字拼音的首字母_C#代码
2012-10-16
DataMax打印机指令打印二维条码_C#代码
2012-10-16
DataMax打印机指令打印_C#代码
2012-10-15
ASCII码_含扩展(256个字符)_含解释
2012-10-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人