自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TURING.DT

科技改变世界,技术改变人生。

  • 博客(587)
  • 资源 (3)
  • 收藏
  • 关注

原创 共享优秀博文及书单

(文中的链接需要右键,在新的窗口打开,csdn不知道搞什么,直接点开提示"该网址内容存在未知风险",网址链接根本没有安全问题)网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称全部整理到这里,便于自己查找,也共享给其他朋友,共用进步,书单只提供书的名字,建议大家购买正版图书,如果此文有内容侵犯到作...

2017-03-12 10:03:16 1825

原创 信息流产品场景及数据指标体系

信息流现在是当前互联网平台信息分发最高效的方式,本课程主要分享了信息流数据指标体系, 分信息消费者、生产者、平台方来介绍主要数据指标。希望能让你对信息流的基础数据指标有一定认识。欢迎在留言区提问,也欢迎大家关注我的微信公众号(数据民工来取经儿)进行学习。

2024-08-23 14:20:39 676

原创 意图识别和纠错问题

可想而知,错误的意图识别会带来多大的负面影响。基于词典,就是对用户query内容和词典内容进行比对,比较常见的方式是序列标注问题里用的最大逆向匹配,通过这种方式找到词典里的实体词,匹配触发了自然就有意图了,而在词典匹配的时候,不是使用链表之类的来构造匹配结构,而是使用搜索树的结构,这种匹配的复杂度最低,速度也快,两者结合,其速度甚至比很多模型要快得多(基本上1ms以内就能完成),fasttext速度非常快,但是textcnn之类的其实就已经达到ms级别以上,bert甚至在10ms级别。

2024-08-14 18:55:17 618

原创 浅谈搜索业务常见数据指标

搭建指标体系的方法论有很多,本期我们会结合GSM、OSM方法的理念来梳理指标,再结合搜索核心关注的分析维度,搭建出搜索指标体系。针对不同的使用对象,可以抽取设计出不同的数据产品以满足需求。

2024-08-13 09:10:49 890

原创 电商搜索停止词库(stopwords)

在中文网站里面其实也存在大量的stop word,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。停止词,是由英文单词:stop word翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索 引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。

2024-08-08 09:25:38 262

原创 电商违禁词&禁用词

最佳、最娇嫩、最低、顶级、顶级、防敏、首选;活化肌肤、最感兴趣、最具有发展前景、最贴心 最为完善、最佳 最舒适、顶尖、第一、最大 最新、最先进、独一无二、独有、最新、最严格、极至、最好的、最环保、最佳;促进血液循环、最近、最新鲜、最安全、最省力、最优质、第一线、最接近、最逼真、最满意、最简洁 最明朗 最低、最严谨、之首、独创、最重要、最佳、最高、天猫、首发、最自然、最好 最舒适、最重要、最小值、最高、最实用、首家、防止宝宝皮肤过敏、最高、最科学、最前沿、最轻便、**之王、最具活力、最喜欢、最完美。

2024-08-08 09:19:26 527

原创 电商搜索同义词库(synonyms)

目前整理了一些搜索电商商品的同义词样例, 以提供搜索功能参考使用。T-shirt,T恤,Tshirt,T。儿童,婴儿,幼儿,婴幼儿,初生儿。挂表,钟,大表,表,闹钟,钟表。牛仔短裤=>牛仔裤,牛仔短裤。橙色,橘色,桔色,桔,橘,橙。晾衣架,衣服架,衣架,晒衣架。拉杆箱=>箱,箱包,拉杆箱。商务装,正装,西装,西服。皮夹=>包,皮包,皮夹。皮箱=>箱,箱包,皮箱。条纹,横条,竖条,花纹。外衣,外套,外褂,褂子。男袜,男士袜,男士袜子。女袜,女士袜,女士袜子。洗脚盆,足疗机,足浴盆。骑士靴=>靴,骑士靴。

2024-08-07 17:28:04 204

原创 推荐系统与搜索系统架构

这就是其中一个模型的打分逻辑,有多模型打分融合的精排层,会将多个模型的分数进行打分,每个模型的重要性不一样,因此分数都会有权重,将每个模型的分数进行权重计算后相乘在一起,就是这个item的排序分数,每个item按照分数进行从高到底排序,就会得到精排打分列表。推荐的本质是需要留住用户在APP中,让用户使用的时间变长,并且第二天也能留住用户,逐渐产生广告收益和其他收益,让用户消费更多,需要通过分析用户的历史行为以及当前的实时行为场景等,推荐系统自发生成查询条件快速给出推荐列表的行为,是一种无声的搜索。

2024-08-05 18:25:58 961

原创 搭建用户搜索指标体系

用户类指标:搜索人均类指标以及搜索的新增、活跃等指标都能反应搜索用户的使用情况,通过人均类指标能够反应搜索对于用户的渗透情况、新增活跃指标更是很直观的反馈用户对于搜索功能的体验,是否能满足用户获取信息的需求,而留存类指标则体现出搜索功能是否给用户感受到良好的使用体验,当搜索功能有优化升级时这些指标都能及时的反馈优化效果。流量类指标:搜索DAU、搜索时长、搜索次数、搜索PV、搜索UV等,这些是能够反应搜索流量的核心指标,也是最直观能够反应用户使用搜索功能的情况,适用于日常的大盘监控分析。

2024-08-01 14:58:59 729

原创 3步阐述搜索框做了什么事情

搜索功能是几乎每个产品的通用标配功能,一个看似简单的搜索框背后,其实隐含了大量的设计思考和技术壁垒。本文将从三个部分阐述,为何搜索框并不简单。本文将从搜索场景的思考、基于步骤的搜索设计以及搜索数据的追踪3个部分,对产品内部搜索设计的主要思路和常见的搜索规则做个简单的分享。

2024-07-31 19:48:20 858

原创 搜索功能发现及定位问题

可以从搜索链路视角(「query 处理」->「意图理解」->「召回曝光点击」)来甄别是哪个环节出了问题;也可以从流量行为视角来看是哪部分用户搜索出了问题;也可以从用户其他行为辅助你识别用户到底要什么

2024-07-25 13:59:02 215

原创 浅谈搜索指标&业务辅助应用

对于生鲜类电商,很多商品都不适合大量囤货,不然会造成商品的大量损耗。CTR和CVR并不是完全正相关的,很多SKU的CTR很高,但是CVR很低,比如一些标题夸张主图奇特的商品,用户可能会被商品的标题和主图等吸引产生点击,但是最终是否下单用户还是会根据自己的实际需求进行综合考虑的。但实际在业务开展的时候,负责搜索引擎的部门背的核心KPI就是搜索引擎的CTR、CVR和PGMV这三个指标,上述其他指标更多是作为辅助指标来进行综合评估,并不会列为部门的KPI,其他指标在业务上反映的价值并没有那么重要和直观。

2024-07-19 16:44:07 1054

原创 浅谈电商搜索数据指标体系建设

发现式搜索是来APP前没有购买目标,在站内展示的内容驱动下比如推荐&活动等,发现商品从注意到兴趣,激发非计划式需求,从数据上定义就是进站后30s后才去搜索。在此抛砖引玉,希望对感兴趣的同学有所启发。如果某一个场域用户访问率&销售占比高,则代表这个场域流量&创造的价值越大,有上表可知,搜索是其中最重要的场域,将精力投入到“搜索”的ROI是较高的。运营+产品角色,影响搜索GMV的关键要素是:用户进入搜索框之后,一系列的功能引导&利益点传递等,核心作用是更好的用户流程体验(不要有卡点)

2024-07-17 18:31:29 322

原创 浅谈购物APP搜索功能强大奖-竞品分析

a、拼多多搜索页包含最近搜索、搜索发现,最近搜索就是近期搜索哪些内容,方便下一次再次搜索,最近搜索可以清除,搜索发现类似使用了推荐功能,帮用户推荐一些可能感兴趣的内容,搜索发现可以隐藏,保护隐私,除了”商品”搜索,上边可以修改为”店铺”搜索;4、搜索后的商品列表,淘宝没有活动筛选器缺少活动的筛选定位,京东的商品图片设计的复杂,想体现的内容比较多,用户看着不够清晰,多少好评、多少人付款、出售多少还是实用的,用户会关注参考,商品跟着大众购买基本上是正确的;

2024-07-14 19:33:00 473

原创 浅谈三车平台车型对比功能实用奖-竞品分析

目录:一、项目背景二、竞品概述三、竞品目标功能对比3.1、车型对比入口位置3.2、车型对比首页3.3、添加/删除车型功能3.4、选择车型后功能对比3.5、配置对比的功能四、总结一、项目背景在汽车购买过程中,消费者经常面临着选择困难,尤其是在比较不同车型时。针对这一问题,消费者希望能够方便地进行车型对比,以便更好地了解各种选项之间的差异,用户可以将多个感兴趣的车型添加到对比列表中,直观地查看它们之间的差异和优劣势。这种功能不仅可以帮助消费者节省时间和精力,还可以帮助他们更全面地了解各种车型的特点,从而做出更加

2024-07-11 15:29:37 897

原创 xlearn:快速落地FM/FFM机器学习算法

在这个样例中,将使用xLearn来解决一个经典的机器学习问题:在线广告预估。样例数据在: https://github.com/aksnzhy/xlearn/demo/classification/mushroom/.样例数据在: https://github.com/aksnzhy/xlearn/demo/classification/titanic/.样例数据在: https://github.com/aksnzhy/xlearn/demo/regression/house_price/.

2024-05-07 18:31:47 576

原创 doccano标注工具|为机器学习建模做数据标注

转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。创建项目后,点击Dataset按钮,点击Import dataset导入数据。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。然后,选择“Add”按钮以显示表单。根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注。下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。

2024-04-03 13:40:45 1744

原创 Linux Centos7安装Docker容器

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。可以看到刚才在执行docker run hello-world的时候,已经将hello-world镜像拉去到本地镜像中了。docker社区、ee企业版 ce为社区版 官方推荐使用ce版,默认安装最新的docker。/var/lib/docker 为docker默认的工作路径!

2024-03-28 11:49:44 1000

原创 产品经理与产品运营的区别和联系

因此在我们确定一个产品价值的时候需要跟公司本来的战略结合在一起考虑,这样才能保证产品价值的完整性。产品经理与产品运营都需要深入了解用户,产品经理需要通过了解来确定产品价值,提升用户体验;为了让产品价值更高效的体现,产品经理需要对产品进行功能或者信息架构,需要研究用户体验,需要懂得一些交互技巧。通过上文的内容,可以看产品经理的工作重心赋予产品价值,而产品运营的工作重心是如何让产品发挥出价值。产品运营的主要目的是:是让产品能有效的发挥出它应有的价值。创造有价值的产品的第一步就是:寻找和确定产品的价值。

2024-01-16 10:44:54 1290

原创 浅谈标签及应用场景

标签的应用场景是由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动、服务等,不同领域有不同的应用,目前最典型的应用是用户画像、产品画像,画像是按应用场景将多个标签组合分类而成,比如:筛选出年龄在20-30岁在广州的女性,就使用多个标签的组合,从而精准找到符合应用的用户。标签由标签名称和标签值组成,打在目标对象上。综上,标签画像的应用越来越被企业重视,其应用场景也覆盖了各行业、各领域,期望该文能起到抛砖引玉的作用,挖掘我们在各个岗位上的标签应用赋能业务。

2024-01-11 15:51:43 638

原创 标签 VS 数据指标,概念与区别

指标可以从标签中转化,比如高净值客户的迁移率(从长尾客户转化到高净值客户的比率),其中高净值客户和长尾客户都是标签,但在标签的基础上增加一个迁徙率,就由标签转化为了指标。同样标签也可以从指标转化得来,比如说银行中常用的数据标签:私行客户(AUM>=500万),其中 AUM 就是数据指标,不同银行的标签设定可能是不同的。不懂数据的产品不是好运营,为了便捷地了解产品现状及业务效果,指标体系中会有很多拆解的细分指标,这些数据的变动反映的是用户对于运营情况的最新反馈,为运营的业务决策提供了数据支持。

2023-12-22 19:28:47 1208

原创 基于LangChain+ChatGLM2-6B+embedding构建行业知识库

目的:最近在探索大模型本地化部署+知识库实现行业解决方案,安装过程记录,分享给需要的同学,安装前确定好各组件的版本非常重要,避免重复安装走老路。方案一:使用开源LLM本地部署和微调优点:数据最安全,因为不管是模型还是训练数据都在本地缺点:要调教出一个足够出色的模型,需要耗费较多的人力物力(当然相比于预训练已经好太多了)具体实施:(LLAMA、ChatGLM2)+(Lora、P-Tuningv2、promote-tunning等)方案二:基于LLM+向量数据库。

2023-11-13 18:49:40 2181

转载 一文读懂什么是CTO、技术VP、技术总监、首席架构师

究竟什么是CTO,一个公司真的需要CTO么?哪些公司的职位对于技术管理者来讲真的是CTO的职位?同样是技术最高负责人,为什么有人叫CTO、有人叫技术总监、技术VP,有人叫首席架构师?他们之间的差别是什么?怎样才能成为一个合格的CTO?各职位之间的差异,从以下技术管理者需要的五个核心能力来区别开:领导力、文化构造能力、人员管理能力、体系搭建能力、技术实力。同样是最高技术负责人,在这五点能力上的强弱决定了最终自己在市场上“挣”出来的职位是什么。

2023-11-03 11:30:43 4565

原创 大数据开源框架技术汇总

引言主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。目录Hadoop:Apache Hadoop是一个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch,Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推

2023-10-18 14:06:28 783

转载 大模型评测总结与思考

想要全面且准确的测出一个大模型的能力且让所有人认可、达成共识,这件事本身具有非常大的难度,如今大模型的发展不同以往,传统的NLP榜单,不论是测评的能力项还是具体测评case都难以满足,为此必定要构建新的测评集,这个难度正如前面所说很大,还有一条路就是不构建测试集而是公测,让所有人来随机测,各种提问,但是这种方式对于开发者来说迭代周期长,且各个模型之间也难以量化对比。每一个测评集都不一样,进而导致了结论的不一样,也无法达成共识,目前唯一的共识可能就是chatgpt和gpt4比较强,其他的各说其词。

2023-08-16 15:17:19 3146

原创 友盟+、GrowingIO和神策数据 对比

属于大数据的基础设施了,可以做数据驱动技术,千人千面的优化。GrowingIO,这个非常适合项目早期,团队内没人懂这个东西,看完增长黑客就想上手。这个真的是对比过的,我们小作坊的员工是能学会GrowingIO的,可以数据驱动运营。growingio也提供清单级数据的导出服务,不过另外收费,开通之后可以提供过去15天的清单级数据。所以说,看你接给谁用,如果是做开发,想要做大数据驱动,神策更合适。使用要求:操作上,涉及数据集、表的关联、看板等多个需要用户操作的环节,对应数据处理过程。适合给老板看个总和。

2023-08-03 15:32:43 1595

原创 Orange:一个基于 Python 的数据挖掘可视化平台

对于高级用户,可以通过开发自定义的组件(Widget)实现扩展的功能,或者在 Python 中利用 Orange 代码库编写数据挖掘脚本程序。为了方便初学者,Orange 提供了许多实用的工作流示例。打开 Orange 主界面,左侧显示了默认安装时提供的许多机器学习、预处理以及可视化的算法,这些功能被划分为 5 个组件集(数据、可视化、模型、评估以及无监督算法)。欢迎界面提供了新建、打开工作流(workflow)的快捷方式以及各种教程、示例和使用文档,关闭该界面就进入了 Orange 主界面。

2023-07-19 17:21:42 4511 2

原创 Prompt 技巧指南-让 ChatGPT 回答更准确

随着 ChatGPT 等大型语言模型 (LLM)的兴起,人们慢慢发现,怎么样向 LLM 提问、以什么技巧提问,是获得更加准确的回答的关键,也由此产生了提示工程这个全新的领域。提示工程(prompt engineering)是一门相对较新的领域,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解LLM的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。

2023-07-19 10:52:35 1093

原创 Ubuntu18.04本地部署Stable-Diffusion-webui绘画

打开v2-1_768-ema-pruned.ckpt · stabilityai/stable-diffusion-2-1 at main(https://huggingface.co/stabilityai/stable-diffusion-2-1/blob/main/v2-1_768-ema-pruned.ckpt),下载训练模型(大小4.9G)。在左上角的文本框prompt输入提示词,点击Generate,等待数秒钟(我的电脑大概等待15s左右),就会生成一张图。

2023-06-30 15:58:09 3900 5

原创 Pytorch和CUDA版本对应关系

官方地址:https://pytorch.org/get-started/previous-versions/注意低版本的Pytorch是否向上支持更高版本的CUDA。使用nvidia-smi命令显示的cuda版本信息。高版本的Pytorch一般能兼容低版本CUDA。

2023-06-30 14:10:55 6841

原创 产品运营如何与研发建立良好的合作

他们对业务也有自己的理解和想法,有时甚至能从别的角度给出更好的解决方案,前提是要让他们充分了解这个需求的来龙去脉,这个需求的背景,不仅仅是知道我们要做什么事,更重要的是我们为什么要做这个事:现在的这个产品需求是我运营经过调研分析确定的,我的解释是否能让你足够清楚明白了?如果是紧急的需求,或者重大的bug出现(比如用户无法登录了),这种可以随时找研发处理,但是尽量不要零敲碎打地报需求,尤其是不要用即时沟通的方式,比如qq,电话给研发报需求,容易遗漏,不好统计和反馈,而且也给研发造成打扰。

2023-06-01 14:53:50 640

原创 NVDIA GPU参数列表: 3090,4090, A40, A30,V100, A100, A800性能参数

而据英伟达的说法,新的 A800 可以替代 A100,两者都是 GPU(图形处理单元)处理器。芯片经销商 OMNISKY 容天官网介绍的英伟达 A800 GPU 信息显示,新的芯片数据传输速率为每秒 400GB,低于 A100 的每秒 600GB,代表了数据中心的性能明显下降。NVIDIA A100 GPU采用全新Ampere安培架构的超大核心GA100,7nm工艺,542亿晶体管,826平方毫米面积,6912个核心,搭载5120-bit 40/80GB HBM2显存,带宽近1.6TB/s,功耗400W。

2023-05-25 11:21:54 24603

转载 不错的ChatGPT Prompts/调教指南

首先ChatGPT它能干什么?类别描述学术论文它可以写各种类型的学术论文,包括科技论文、文学论文、社科论文等。它可以帮助你进行研究、分析、组织思路并编写出符合学术标准的论文。创意写作它可以写小说、故事、剧本、诗歌等创意性的文学作品,能够在描述情节和角色方面提供帮助。内容创作它可以写SEO文章、博客文章、社交媒体帖子、产品描述等各种类型的内容创作。它能够为你提供有趣、独特、易读的内容,帮助你吸引读者和提升品牌知名度。商业写作它可以帮助你编写商业计划书、市场调研报告、营销策略、商业简报、销售信件等。它可以用清晰

2023-03-21 14:51:17 20272

原创 电商搜索入门

但是对短文本的提取,特别是字符小于10的文本提取关键词,行业上也没有比较好的解决办法,从目前的测试数据来看,TF-IDF算法比较好一些。商品经过分词搜索,再经过权重模型计算排序后,就会展示在前端给客户查看,但是系统查询的结果不一定就百分百是用户想要的,所以用户可以自己根据一定的规则再次进行筛选新排序,最终找到自己的想要搜索结果。当用户输入查询关键词时,也有可能输入了和关键词意思相近的词语,比如用户本来想要输入"三体",但实际却输入成"3体",这个时候系统就会将"3体"转换为"三体",再进行下一步处理。

2023-02-28 17:07:45 2241

原创 机器学习模型监控的 9 个技巧

如果您使用不同类型的特征(例如:词嵌入、地理位置坐标),您可能需要将它们解码(例如:分别解码为字符串和城市名称),以便您可以更轻松地分析报表和在绘图中的展示这些特征。这样做的原因是,许多数据问题对样例的某些子集具有关键影响,但它们在整个数据集的影响可能会“消失”,因为当您查看整个数据集的聚合值时,它们的绝对影响不足以感受到。您创建了一些实时警报(电子邮件、移动推送通知等),以在模型以意想不到的方式表现时提醒您,例如奇怪的特征值、缺失的特征、分数太高/太低,等等。监控使用模型做出的决策。

2023-02-22 15:53:43 847

转载 AUC的是如何计算的

metrics.roc_curve默认drop_intermediate为True,然后讲解sklearn包计算AUC的详细流程,并用代码自行实现AUC的计算。文章先介绍如何使用sklearn包计算AUC,这是实际中常用的方法。本文主要讲解AUC是如何计算的,通过本文了解AUC的具体计算过程。算出的fpr和tpr会删掉线性过渡点(即上面图中标黄的点)!从结果可见,自行计算结果与sklearn包运行结果一致。调用sklearn包计算AUC的代码。01.调用sklearn计算AUC。

2023-01-04 11:05:52 666

原创 使用sklearn进行在线实时预测(构建可用模型)

前面说到的运行方式是在离线环境中运行,在真实世界中,我们很多时候需要在线实时预测,一种解决方案是将模型服务化,在我们这个场景就是,我告诉你一个鸢尾花的 sepal_length, sepal_width, petal_length, petal_width 之后,你能够快速告诉我这个鸢尾花的类型,借助 flask 等 web 框架,开发一个 web service,实现实时预测。上面的模型对鸢尾花数据进行训练生成一个模型,之后该模型对测试数据进行预测,预测结果为每条数据属于哪种类别。

2022-11-18 13:17:20 1999

转载 数字化转型,需要什么样人才体系?

术业有专攻,尤其是传统行业的业务人员对数据的认知处于比较浅的层次,想要在转型过程中,数据团队不是闭门造车,而是深刻的理解了业务流程和痛点,就需要具备深厚的数据功底的“外交官”的角色,去不断深入业务过程,可以告诉业务数据能够带来哪些改变,现有哪些数据,还需要做哪些工作。既然数字化转型的终极目的是降本增效,以终为始,那就要先看目前的经营流程中,主要的“本”花在了哪里,这时涉及两个层面,一是要能够梳理清楚现有的核心业务流程,二是有没有完善的数据,可以去衡量这个成本。

2022-10-27 10:18:14 583

原创 主流大数据调度工具对比(DolphinScheduler特点)

大数据环境下,调度工具比不可少,离线批任务和准实时任务都需要调度去驱动。支持暂停恢复操作. 支持多租户,更好的应对大数据的使用场景. 支持更多的任务类型,如 spark, hive, mr, python, sub_process, shell。DAG 监控界面,所有流程定义都是可视化,通过拖拽任务定制DAG,通过API方式与第三方系统对接, 一键部署。支持自定义任务类型,调度器使用分布式调度,调度能力随集群线性增长,Master和Worker支持动态上下线。

2022-09-20 13:25:23 2213

原创 大数据中台技术组件

元数据管理:开源的Netflix的Metacat、Apache的Atlas,商业化的产品Cloudera Navigator。任务调度:Oozie,Azakaban,AirFlow,DolphinScheduler等。在线实时分析:ClickHouse,Kylin,Doris,Druid,Kudu等。数据计算:MapReduce,Spark,Flink。资源调度:YARN,Mesos,Kubernetes。数据存储:HDFS,HBase,Kudu等。交互式查询:Impala,Presto。

2022-08-23 18:56:35 730

Python深度学习(Deep Learning With Python中文版)

本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,包括计算机视觉、自然语言处理、产生式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化,读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后,读者将具备搭建自己的深度学习环境、建立图像识别模型、生成图像和文字等能力。

2018-09-29

Spark大数据分析核心概念技术及实践OCR 中文

Spark大数据分析核心概念技术及实践,深度讲解使用spark技术对大数据进行分析,并给出实践案例

2018-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除