大数据
泰克轱辘儿
简述不能为空
展开
-
使用Dask装载和处理远远超过可用内存资源的市场或行情数据
可以将超过计算资源池可用内存的大型数据集“装载”进内存,然后像Pandas、Numpy等数据处理工具一样,对数据进行处理。它屏蔽了数据的分批装载和计算过程,让开发者更专注于数据本身的逻辑。,即可在本地使用,用法可参考上面的链接。原创 2022-10-06 10:27:09 · 378 阅读 · 1 评论 -
基于RPA/低代码/CDP/MA/BI/AI的数字化工具
干了6年的传统企业数字化,我的注意力一直都是集中在“建立和使用降本提效的工具”上(虽然上篇文章写的是“开拓和经营绑定科技的业务”),从以IT运维工程师为核心用户的中信云,到以IT研发工程师为核心用户的梧桐树,最终到以企业管理和业务人员为核心用户的万数达,越来越清晰的数字化“半边天”形成在了我的脑海里。这一定是未来五年内,传统企业数字化唯一正确的打开方式。原创 2022-05-04 16:05:10 · 1000 阅读 · 0 评论 -
微信工具(Python)实现备注管理和群发消息
微信工具(Python)实现备注管理和群发消息过去的一年故事太多,过年实在想换换脑子,可又哪儿去不了,除了陪孩子学习和玩,总得找点儿轻松的事儿做,太大的工程做不了,花两天写了个Python微信工具,用来批量更新好友的备注和给好友群发消息,效果如图:编辑好备注列,选好行,点更新备注;编辑好消息列,选好行,点发送消息。代码如下:import csvimport datetimeimport loggingimport osimport sysimport itchatimport nump原创 2021-02-15 20:03:46 · 2061 阅读 · 3 评论 -
Greenplum闰秒故障的分析解决
2015年7月1日上午,国家授时中心增加了7:59:60这个时间来处理闰秒问题。对于使用网络时间协议进行时钟同步的操作系统而言,实在是不应该有什么问题才对,因为即使没有这多出的一秒,系统时钟不准个几秒也是常有的事儿啊。但是部分Linux(比如RHEL 6.2 64bit)上的部分应用(比如Greenplum数据库,也包括java和mysql这些)需要读取硬件时钟和系统时钟,这二者不一致时,就跑不动原创 2015-07-17 15:39:22 · 1862 阅读 · 1 评论 -
与Greenplum度过的三个星期
5月4日-5月24日,断断续续折腾了三个星期的Greenplum,总算告一段落了:扩容,发现扩不成容,只好升级;升级,发现一堆错误,只好暂停修复数据库;修好了,继续升级;升完级,发现错误,修啊修啊修好了;最后,终于完成了扩容。这个过程里写了8篇博文把实施过程和问题解决都记录下来了,这里把整个过程总结一下。本来早就要写了,可家里外头一堆事儿,拖到今天才找个空来落笔。原创 2015-06-09 16:10:50 · 3771 阅读 · 4 评论 -
Greenplum数据库升级实务(下)
上篇介绍了准备,这篇完成升级过程。原创 2015-05-18 15:13:10 · 2326 阅读 · 0 评论 -
Greenplum数据库扩容实务(下)-实施收尾
GP扩容的实施其实就是一条命令,最耗费时间的是实施之后的数据重分布,也就是把数据从已有节点平衡到新的seg host上,这篇将描述实施、收尾过程,并给出些常见问题。原创 2015-05-21 13:49:10 · 3422 阅读 · 0 评论 -
Greenplum数据库升级实务(上)
任何系统的升级都有个量变到质变的过渡:版本相差小的时候,通常很简单,版本相差大的时候,就是一场噩梦。不过版本相差小的时候,大伙儿往往安于现状。本文实际记录从GP4.2.7.2到4.3.5.0的升级过程,从版本号看相差不大,但是GP的版本命名中,第二位的变化就已经是大升级了。另需说明的是,本文升级的GP数据库规模不小,用户较多,管理混沌,在加上GP实在是有点儿脆弱(相比oracle等),所以遇到了较多原创 2015-05-18 15:10:25 · 4058 阅读 · 0 评论 -
Greenplum数据库扩容实务(上)-准备工作
任何分布式系统都要面对的事儿就包括扩容,不然分布式系统存在的意义就大打折扣了,这篇就介绍一下对GP进行扩容的准备过程,事实上,扩容的实施是个非常简单的过程,主要要做的就是准备。原创 2015-05-21 13:46:15 · 2754 阅读 · 0 评论 -
如何解决Greenplum的gpcheckcat关于persistent的错误
Greenplum的gpcheckcat是用来检查system catalog的一致性的命令,其中有专门针对磁盘文件的检查($GPHOME/bin/lib/gpcheckcat -R persistent -p 5432 databasename),主要是对于system catalog里关于磁盘文件的记录与实际磁盘文件的情况的一致性检查。本文结合一个实际错误介绍如何解决这类元数据错误。原创 2015-05-14 22:42:53 · 2322 阅读 · 2 评论 -
如何解决Greenplum pg_dump备份时的分布策略缺失等问题
Greenplum的元数据错误也会影响到数据备份过程,在使用pg_dump进行数据结构备份时,会由于分布策略的缺失导致备份失败,本文介绍此错误的解决办法。原创 2015-05-14 11:28:13 · 3163 阅读 · 0 评论 -
如何解决Greenplum中无法通过标准命令修复的元数据错误
Greenplum的可靠性还是没法和传统商业数据库相比,它跑着跑着就会把自己的元数据给跑乱,有些是可以通过命令修复的,有些则只能直接去增删改system catalog。本文结合一个具体错误,介绍如何操作system catalog解决元数据错误。原创 2015-05-13 08:32:28 · 4181 阅读 · 0 评论 -
如何解决Greenplum master node与seg node元数据不一致
作为分布式数据库,Greenplum的元数据经常(是真的,经常遇到)会出现些错误,典型的一个是master node与seg node元数据不一致,本文结合一个具体错误,介绍下解决的办法。原创 2015-05-12 13:00:51 · 2742 阅读 · 0 评论