孟知之
码龄7年
关注
提问 私信
  • 博客:106,888
    106,888
    总访问量
  • 82
    原创
  • 2,330,315
    排名
  • 3,063
    粉丝
  • 6
    铁粉

个人简介:知之为知之

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-06-23
博客简介:

孟知之的搬砖填坑历险记

博客描述:
数据实践者与NLP爱好者
查看详细资料
个人成就
  • 获得70次点赞
  • 内容获得21次评论
  • 获得348次收藏
  • 代码片获得294次分享
创作历程
  • 10篇
    2021年
  • 64篇
    2020年
  • 8篇
    2019年
成就勋章
TA的专栏
  • 软技能
    3篇
  • 通用编程
    13篇
  • 计算引擎
    18篇
  • 数据中台建设
    15篇
  • 部署运维
    4篇
  • 自然语言处理
    7篇
  • 机器学习
    10篇
  • 存储引擎
    6篇
  • 其他
    2篇
  • 数据分析
    5篇
  • 科比
    1篇
兴趣领域 设置
  • 大数据
    etl
  • 人工智能
    自然语言处理数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【通用编程】HQL优化技巧

文章目录1.合理使用索引2.使用UNION ALL替代UNION3.避免select * 写法4.避免复杂SQL语句5.避免order by rand()类似写法6.避免全表扫描7.用 exists 代替 in8.尽量使用数字型字段9.尽可能的使用 varchar 代替 char10.避免频繁创建和删除临时表,以减少系统表资源的消耗。11.select into 代替 create table1.合理使用索引索引少了查询慢;索引多了占用空间大,执行增删改语句的时候需要动态维护索引,影响性能。选择率高
原创
发布博客 2021.10.08 ·
1025 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

【数据中台】初探数据湖-iceberg

文章目录1. 什么是数据湖2. iceberg的特性2.1 优化数据入库的流程2.2 支持更多的分析引擎2.3 统一数据存储和灵活的文件组织2.4 增量读取处理能力3. 数据湖技术催生的新架构3.1 原有方案3.2 新方案4. 新架构应用场景1. 什么是数据湖准确来讲就是数据入湖中间件技术,它并不是一个存储或者计算引擎,它的存在就是更好的将存储和计算解耦,构建与存储格式之上的数据组织方式,并提供ACID(atomicity原子性、consistency一致性、isolation隔离性、durabilit
原创
发布博客 2021.08.27 ·
1370 阅读 ·
1 点赞 ·
2 评论 ·
5 收藏

【软技能】万一自己是狼人

在计算机技术里的黑话里,有一颗银色子弹(并不是滚筒洗衣机)可以解决一切问题,而我们一代代人,都在苦苦追求它。每当有新技术出现的时候,就会有人问,XXX 是不是银弹啊?比如说啊,云计算是不是银弹,DDD 是不是银弹,维度建模是不是银弹,阿里的onedata是不是银弹。Fred Brooks(No Silver Bullet—Essence and Accidents of Software Engineering) 将软件开发中的工作分为本质性工作(Essential Task)和附属性工作(Acciden
原创
发布博客 2021.08.08 ·
266 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【数据中台】如何提升数据质量

首先,需要强调的是,数据质量的保证紧靠技术是远远不够的。在实际工作中,在整个数据质量的控制过程中,人的影响最大。所以,要想真正长期保证数据的高质量,可以分事前、事中、事后三个阶段来保障的。事前:建立数据标准,明确数据的定义。事中:建立一个可复用的数据收集,数据预处理和数据维护流程,来应对不断变化的企业内外部因素,在数据预处理流程中设立多个性能监控点(可参考本人写的数据稽核文章)事后:建立流程与制度,并对流程不断进行改善和优化,质量改善非一朝一夕,而是持续的过程,制定数据采集、存储、集成、分析
原创
发布博客 2021.06.28 ·
1178 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【计算引擎】OLAP之争:kylin、impala、druid、presto、clickhouse

文章目录1. 即席查询2. Kylin2.1 架构2.2 原理2.3 Cube构建优化3. Impala3.1 架构3.2 优化4. Druid4.1 架构4.2 数据结构4.2.1 DataSource4.2.2 Segment结构5. Presto5.1 架构5.2 数据源6. ClickHouse6.1 特性6.2 架构7.总结1. 即席查询即席查询是用户根据自己的要求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表,快速的执行自定义SQL。2. KylinApache kylin
原创
发布博客 2021.06.10 ·
3623 阅读 ·
0 点赞 ·
2 评论 ·
22 收藏

【运维部署】数据中心高可用方案

出于灾备的目的,一般都会建设2个(或多个)数据中心。一个是主数据中心用于承担用户的业务,一个是备份数据中心用于备份主数据中心的数据、配置、业务等。备数据中心之间一般有主备(Active-Standby)热备、冷备,双活(Active-Active)备份方式。热备的情况下,只有主数据中心承担用户的业务,此时备数据中心对主数据中心进行实时的备份,当主数据中心挂掉以后,备数据中心可以自动接管主数据中心的业务,用户的业务不会中断,所以也感觉不到数据中心的切换。冷备的情况下,也是只有主数据中心承担业务,但是备用数
原创
发布博客 2021.05.31 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【软技能】快速进入行业领域指北

在现今社会中,我们如何快速的进入一个行业并成为行业专家是一个非常重要的能力,它能给你带来更多的收益,并能抗拒内卷,完成终生价值。本文个人总结得益于从研究生阶段开始,就跟随导师与各类公司高管打交道,并且在参加工作之后也一直在核心部门,所以会接触到很多行业专家,每一次的开会和沟通都会有不小的收获。由此经历总结出来四个关键点:塑造行业知识图谱快速了解这个行业的100个关键词,把每一个关键词的属性和关联结构化,变成网状结构,变成知识图谱。了解该行业中典型的五个老公司和五个新公司,关注这些公司的报告分析,随
原创
发布博客 2021.05.17 ·
193 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

【自然语言处理】词性标注-HMM算法

traindata.txt的数据格式Newsweek/NNP,/,trying/VBGto/TOkeep/VBpace/NNwith/INrival/JJTime/NNPmagazine/NN,/,announced/VBDnew/JJadvertising/NNrates/NNSfor/IN1990/CDand/CCsaid/VBDit/PRPwill/MDtag2id, id2tag = {}, {} # maps tag to id . tag2id:
原创
发布博客 2021.05.13 ·
873 阅读 ·
2 点赞 ·
3 评论 ·
5 收藏

【数据中台】维度建模指北

文章目录1. 建模流程2. 迭代流程3. 维度表4. 事实表1. 建模流程确认每个主题域,明确范围,即事实表清单。根据业务流程(比如投保->承保->…)拆分相关实体确认维度:维度退化:who?when?where?根据不同实体内容(比如域中完全不相关的独立实体)拆分不同事实表根据粒度, (粒度,一行数据代表:一条保单?一条批单?一天的保费?)对事实表进行拆分(比如主表,明细表等)2. 迭代流程根据需求迭代:事实表关联实体清单:按需添加相关的实体;在事实表中按需添加属性和
原创
发布博客 2021.05.01 ·
1149 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

【通用编程】get和post两种基本的请求方法

1. 基本区别区别getpost传输数据方式从服务器上获取数据向服务器传送数据传参方式把参数数据队列加到提交表单的ACTION属性所指的URL中,值和表单内各个字段一一对应,在URL中可以看到通过HTTPpost机制,将表单内各个字段与其内容放置在HTML HEADER内一起传送到ACTION属性所指的URL地址。用户看不到这个过程数据量传送的数据量较小,不能大于2KB传送的数据量较大,一般被默认为不受限制安全性低高2. get与post的本质
原创
发布博客 2021.04.28 ·
523 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

【数据中台】数据质量原因分析

在进行数据统计时,经常会对数据的准确性产生质疑,如果出现较为明显的偏差,就很容易发现数据是不对的。但如果数据只有小幅度的偏差,就很难感受到,造成数据质量的原因有几种,下面分别说明:1. 网络异常网络异常是导致数据质量的直接原因之一。举几个栗子,比如我们在使用APP时,可能因为网络异常,导致用户的操作行为并没有被及时发送到统计服务器端;或者这些服务是SaaS服务,在一些网络的高峰期,此时有大批量的用户向服务提供商发送行为数据,这样就容易导致网络拥堵,就像春运期间在12306网站抢车票一样,容易导致某
原创
发布博客 2020.08.26 ·
664 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【用户画像】标签数据开发

文章目录2.1 统计类标签开发2.2 规则类标签开发2.3 挖掘类标签开发2.4 流式计算标签开发2.5 用户特征库开发2.6 数据监控预警标签数据开发是用户画像体系搭建中最主要的环节,主要包括离线标签开发、实时类标签开发、用户特征库开发、打通数据服务层等开发内容。2.1 统计类标签开发这类标签开发相对简单,根据数据口径来就行。2.2 规则类标签开发规则类标签一般是指根据业务运营上的需要,在业务层面制定规则的标签,一般开发前需要进行数据调研,摸清本平台上业务数据的情况,然后再根据运营业务规则开发相
原创
发布博客 2020.08.21 ·
991 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

【用户画像】项目规划

文章目录1.1 标签类型1.2 数据架构1.3 开发流程1.4 画像应用的落地1.5 画像表结构设计1.6 规划数据指标体系用户画像是数据仓库上的一个应用方向,针对用户个性化推荐,精准营销,个性化服务等多样化服务,对数据应用体系层级划分:1.1 标签类型1.统计类标签此类标签是最为基础也最为常见的标签类型,例如,对于某个用户来说,其性别,年龄,近7天活跃时长等字段可以从用户注册数据,用户访问,消费数据中统计得出。2.规则类标签该类标签基于用户行为以及确定的规则产生。例如,对平台上的“活
原创
发布博客 2020.08.18 ·
643 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【数据中台】学习摘录-关键支撑技术

文章目录1. 元数据管理1.1 数据地图1.2 指标管理1.2.1 现状:指标混乱1.2.2 规范化定义指标1.2.3 构建全局的指标字典2. 数据模型设计3. 数据质量3.1 提高数据质量方法4. 成本优化5. 数据安全6. 数据研发流程管理1. 元数据管理数据中台的支撑技术大致可以分为元数据管理,指标管理,模型设计,数据质量等。首先先说说在数据中台占首要位置的元数据管理。在提到数据中台的构建,必然提到元数据,那元数据都涉及什么呢?比如,为了确保全局指标的业务口径一致,要把原先口径不一致的、重复的指
原创
发布博客 2020.06.22 ·
3658 阅读 ·
8 点赞 ·
0 评论 ·
15 收藏

【数据中台】学习摘录-数据中台建设

文章目录1 数据中台建设1.1 数据只处理一次1.2 数据即服务1.3 数据中台方法论总结1 数据中台建设1.1 数据只处理一次在未做数据中台之前,每个部门都会有一些小的数仓去完成本部的数据分析任务。而数据中台就是要在整个业务形成一个公共数据层,消灭这些跨部门的小数仓,实现数据复用,强调的是数据只加工一次。那么要实现数据只加工一次,需要做五个方面的工作:分主题域管理命名规范定义指标一致数据模型复用数据完善1.2 数据即服务数据中台的数据用该是通过API接口的方式被访问。这么做有什
原创
发布博客 2020.06.19 ·
511 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【运维部署】anaconda上GUI启动zsh环境终端错误

很久没有在mac上折腾tensorflow了,用anaconda的GUI来登终端,出现了问题。之前其实遇到过,但是忘了怎么处理了。具体处理方法参考:https://iaside.com/archives/455第一步,打开iterm2,切换bash环境。bash第二步,手动启动环境。source activate tensorflow37(虚拟环境名)搞定!...
原创
发布博客 2020.06.16 ·
358 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【数据中台】学习摘录-数据采集

文章目录1. 数据采集1.1 日志采集1.2 数据同步1.2.1 批量数据同步1.2.2 实时数据同步1.3 数据同步遇到的问题与解决方案1. 数据采集1.1 日志采集数据采集为大数据系统体系的第一环,建立一套标准的数据采集体系方案,可以全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。数据采集分为日志采集和数据库同步两部分,其中日志采集主要指的是埋点数据,其数据来源可来自浏览器与无线客户端。《阿里大数据之路》书中分享了两个案例,分别对应了两个思想。日志分流与定制处理考虑到阿里日
原创
发布博客 2020.06.14 ·
1829 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

【数据中台】学习摘录-纵观数据中台

文章目录1. 做数据中台的前提1.1 那如何如何挖掘业务的痛点呢?1.2 推进数据中台项目落地这段时间将极客时间上的网易的《数据中台实践》与《阿里的大数据之路》粗略的看了一遍(两本书写的内容涉及面非常之多,也有很多细节没有展开,但都是非常好的数据中台指南,两本内容侧重点不同,网易的更偏实践,阿里更偏理论,都适合放在案台用作工具书翻看),也将整个数据架构梳理了一遍,对数据中台有了更深层次的理解,也看清了数据中台在整个公司中的战略位置。下面我将梳理一些我所学到,理解的数据中台及实现方案。首先,先说明结论,数
原创
发布博客 2020.06.07 ·
708 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【存储引擎】Redis要点总结

文章目录1. 缓存穿透1.1 带来的问题1.2 解决办法1.2.1 缓存空值1.2.2 BloomFilter1.2.3 如何选择2. 缓存击穿2.1 带来的问题2.2 解决办法3. 缓存雪崩3.1 解决办法3.1.1 事前:使用集群缓存,保证缓存服务的高可用3.1.2 事中:使用 ehcache 本地缓存 + Hystrix 限流&降级 ,避免 MySQL 被打死的情况发生3.1.3 事后:开启 Redis 持久化机制,尽快恢复缓存集群4. 热点数据集中失效4.1 解决办法4.1.1 设置不同的失
原创
发布博客 2020.06.01 ·
382 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【计算引擎】Spark和Hive中数据倾斜的情况分析及解决方案

文章目录1. 数据倾斜是什么2. 数据倾斜的表现2.1 Hive中的数据倾斜2.2 spark中的数据倾斜3. 数据倾斜的原因3.1 Shuffle3.2 数据本身3.3 业务逻辑4. 数据倾斜的解决方案5.举个栗子5.1 由空值造成的数据倾斜5.2 count(distinct)的倾斜问题5.3 不同数据类型关联产生数据倾斜5.4 小表不小不大,怎么用 map join 解决倾斜问题6.总结1. 数据倾斜是什么数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几
原创
发布博客 2020.05.23 ·
1592 阅读 ·
4 点赞 ·
2 评论 ·
20 收藏
加载更多