- 博客(13)
- 资源 (2)
- 收藏
- 关注
原创 关于数据漂移的学习
数据漂移产生的原因 通常我们把从源系统同步进入数据仓库的第一层数据成为ODS层数据,我们公司目前只有ODS一层,虽说只有一层,但是仍然有有一个顽疾:数据漂移,简单来说就是ODS表的同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。更新表来说会丢失变更数据,流水表一般会丢失上一天数据,或者说上一天数据漂移到下一天。 由于ODS需要承接面向历史的细节数据查询需求,这就是需要物理落地到数据仓库的ODS表按时间段来进行分区存储,通常的做法是按某些时间戳字段来切分,二实际上
2022-10-26 15:20:19 447 1
原创 关于Elasticsearch的一些学习(一)
定义:1.Lucene 是一个全文检索引擎的工具包,能够实现倒排索引的查询结构。2.Elasticsearch (以下简称 ES) 是一个开源的分布式搜索引擎,底层使用Lucene做索引与搜索,隐藏了Lucene的复杂性,取而代之的提供一套简单一致的RESTful API优势:1.支持PB级别数据存储2.精确匹配、模糊搜索、聚合查询3.近实时索引4.部署简单5.平滑的横向扩容6.服务节点支持高可用7.支持多种开发接口劣势:1.不支持准实时 refresh_interval决定,近
2022-10-20 18:26:19 411
原创 基础数据平台迁移大数据平台的一些参考
背景1.基础数据平台能力诉求:业务迅速增长,业务数据量不断膨胀,重要业务场景越来越多,对于基础数据平台的服务和支持能力提出了更高的要求。2.数据时效诉求:业务部门经营分析、决策支持对数据时效要求越来越高。3.计算、存储资源瓶颈: Oracle一体机存储和计算资源存在瓶颈(有效空间140TB,已使用空间132TB),始终保持约90%高水位运行 设备老旧:Oracle一体机硬件设备已使用7至10年,接近或超过8年强制替换周期,存在设备老旧故障率升高的风险 原厂支持服务结束:Oracle一体机上Or
2022-10-19 23:54:18 1158
原创 编写一个简单爬虫-全国地方政府官网
最近在做地方政府的补录工作,原来想找一个全国地方政府官网地址汇总出乎意料几乎找遍全网没找到......心想那干脆自己爬一个于是就有了以下内容:在我工作中我发现政府网站设计的特点:一.省级市政府网站底部会有地级市政府以及县级市网站链接二.地级市政府网站底部会有县级市网站链接三.而且政府网站反爬机制不严格,那么想要爬取全国各个地方政府官网就不难了思路:爬取全国34...
2019-11-05 22:51:27 6932 1
原创 Twitter狗狗数据清洗
收集数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport requestsimport jsonimport os#导入Twitter档案twitter_archive_enhanced=pd.read_csv('twitter-archive-enhanced.csv')...
2019-08-03 14:47:48 850
原创 Teredata(天睿) 典型客户案例
啤酒与尿片,交叉销售口碑好美国知名连锁超市利用Teradata的大数据分析和数据仓库解决方案发现:该超市在10月至1月的每周一啤酒与尿片都卖得特别好!为什么呢?经过观察与研究,该超市发现:10月至1月是美国的足球季(Football Season),尤其是星期一足球之夜(Monday Night Football),是美国男人必看的节目,他们看球赛转播之前,会去买啤酒,老婆们则会叫老公顺便...
2019-08-03 12:35:22 693
原创 工业大数据竞赛(基于深度学习的模型)
#数据处理代码import pandas as pdimport numpy as np#提取M1数据pinlv=[]#M_number=['M1','M2','M3','M4','M5']M_xilie=['a','b','c','d','e']boxing=['压缩机非联端X','压缩机非联端Y','压缩机联端X','压缩机联端Y','压缩机轴位移A(波形)','压缩机轴位...
2019-07-05 21:32:55 1437
原创 用Kettle处理经典数据集Sakila
sakila数据集以及ktr文件下载链接:百度网盘 提取码:7n61sakila数据集包括:数据库数据仓库Kettle的处理●总共有七大步骤:●load_fact_rental●load_dim_staff●load_dim_customer●load_dim_store●load_dim_actor●load_dim_...
2019-04-29 20:29:23 1389 4
原创 VS2010简单粗暴调用matlab
版本:●VS2010●matlab2018aVS2010中的项目属性配置:●项目--项目属性--配置属性--VC++目录--包含目录●项目--项目属性--配置属性--VC++目录--库目录●项目--项目属性--配置属性--链接器--输入--添加依赖项复制添加以下内容:libmx.liblibmat.liblibmex.libmclmcr.li...
2019-04-29 19:36:50 1457 1
原创 基于tushare的股票评级
♥导入tushare♥获取基本面板数据运营能力盈利能力成长能力负债能力♥将表进行合并♥采用线性回归预测我们将net_profits(净利率)作为预测变量也就是我们最希望得到的值,在经过多次试验后发现它与icratio(利息支付倍数)相关度最高,R值=0.972于是通过线性回归预测股票的净利率画图结果如下...
2019-03-17 22:14:46 413
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人