自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(199)
  • 收藏
  • 关注

原创 最全机器学习算法(5)—— 集成学习算法_集成学习算法库,2024年最新讲的明明白白

integer,optional(default = 10)森林里的树木数量120,200,300,500,800,1200在利用最大投票数或平均值来预测之前,你想要建立子树的数量。Criterion:string,可选(default =“gini”)分割特征的测量方法max_depth:integer或None,可选(默认=无)树的最大深度 5,8,15,25,30="auto”,每个决策树的最大特征数量bootstrap是否在构建树时使用放回抽样内部节点再划分所需最小样本数。

2024-05-16 05:01:40 898

原创 最全机器学习算法(3)—— 逻辑回归算法(2),成功入职阿里月薪45K

比如以这个癌症举例子!!!我们并不关注预测的准确率,而是关注。

2024-05-16 05:01:06 605

原创 最全机器学习算法(2)—— 线性回归算法(2),腾讯大数据开发开发面试凉凉

数据集介绍(1)线性回归:正规方程:是否计算偏置:回归系数(y=kx+b中的 k):偏置(y=kx+b中的 b)回归模型评估'''获取数据集''''''划分数据集''''''特征工程:数据标准化''''''机器学习:线性回归(正规方程)''''''模型评估'''print("预测值为:", y_predict)print("系数值为:", estimator.coef_)print("偏置值为:", estimator.intercept_)

2024-05-16 05:00:33 896

原创 最全机器学习概述(3),2024年最新2024年五面蚂蚁

一行数据我们称为一个样本一列数据我们成为一个特征有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)

2024-05-16 05:00:00 412

原创 大数据最新大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day08】—,大数据开发开发技术总结

大家好,我是程序员manor。作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍常见面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。道阻且长,行则将至;行而不辍,未来可期!本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

2024-05-15 20:13:52 307

原创 大数据最新大数据应用——HDFS常用命令_hdfs cat命令,2024年最新经典好文

【代码】大数据最新大数据应用——HDFS常用命令_hdfs cat命令,2024年最新经典好文。

2024-05-15 20:13:19 249

原创 大数据最新大数据平台测试-我是怎么面试高级测试的,卑微打工人

面试时可能会问,给你个功能,如何去设计它的测试用例。回答的思路可以分类、分设计方法来设计如分类:功能用例、UI 用例、接口用例、性能用例、兼容性用例、安全用例等如分设计方法:等价类、边界值、场景法、因果图、判定表、正交实验法、错误推测法等。

2024-05-15 20:12:46 232

原创 大数据最新大数据平台架构浅析——以讯飞大数据平台Odeon为例(2),如何保证高可用

日志:一些业务上产生的锚点产生的数据等等。

2024-05-15 20:12:12 387

原创 基于Echarts+HTML5可视化数据大屏展示—交通大数据分析平台_echrts环比同比

大数据分析主图展示&收费站流量&闯红灯分析统计。

2024-05-15 09:19:06 288

原创 基于Echarts+HTML5可视化数据大屏展示—交通大数据分析平台_echrts环比同比(9)

大数据分析主图展示&收费站流量&闯红灯分析统计。

2024-05-15 09:18:30 397

原创 基于Echarts+HTML5可视化数据大屏展示—交通大数据分析平台_echrts环比同比(8)

识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

2024-05-15 09:17:54 263

原创 基于Echarts+HTML5可视化数据大屏展示—交通大数据分析平台_echrts环比同比(7)

【代码】基于Echarts+HTML5可视化数据大屏展示—交通大数据分析平台_echrts环比同比(7)

2024-05-15 09:17:17 274

原创 【Spark Streaming】(一)架构及工作原理_spark(streaming)架构及原理(3)

接收器,接收不同的数据源,进行针对性的获取,Spark Streaming 也提供了不同的接收器分布在不同的节点上,每个接收器都是一个特定的进程,每个节点接收一部分作为输入。因为Streaming 是按照时间不断的分片,所以需要等待,一旦定时器到时间了,缓冲区就会把数据转换成数据块block(缓冲区的作用:按照用户定义的时间间隔切割),然后把数据块放到一个队列里面去,然后Block manager从队列中把数据块拿出来,把数据块转换成一个spark能处理的数据块。(不是节点级别的,是任务级别的)

2024-05-15 00:40:46 890

原创 【Spark Streaming】(一)架构及工作原理_spark(streaming)架构及原理(2)

接收器,接收不同的数据源,进行针对性的获取,Spark Streaming 也提供了不同的接收器分布在不同的节点上,每个接收器都是一个特定的进程,每个节点接收一部分作为输入。因为Streaming 是按照时间不断的分片,所以需要等待,一旦定时器到时间了,缓冲区就会把数据转换成数据块block(缓冲区的作用:按照用户定义的时间间隔切割),然后把数据块放到一个队列里面去,然后Block manager从队列中把数据块拿出来,把数据块转换成一个spark能处理的数据块。(不是节点级别的,是任务级别的)

2024-05-15 00:40:10 592

原创 【Spark Streaming】(一)架构及工作原理_spark(streaming)架构及原理(1)

【代码】【Spark Streaming】(一)架构及工作原理_spark(streaming)架构及原理(1)

2024-05-15 00:39:34 344

原创 【Spark MLlib】(六)协同过滤 (Collaborative Filtering) 算法分析_基于 spark mllib 协同过滤算法与传统的协同过滤算法的区别

协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度,其内在思想其实就是相似度的定义。

2024-05-15 00:38:56 697

原创 Elasticsearch(十)搜索---搜索匹配功能①--查询所有文档和term级别查询_elasticsearch关系型数据库 搜索(1)

/这里我直接New MatchAllQueryBuilder,不过更推荐QueryBuilders.matchAllQuery().boost(2.0f)“_source”: [“title”,“city”], //希望返回的结果字段。“from”: 0, //分页。“city”: { //搜索字段是city,字段类型为keyword。{VALUE}” //搜索值。“value”: “北京”

2024-05-14 15:18:06 902

原创 elasticsearch 基于ik分词器的分词查询和模糊匹配_es分词查询模糊匹配

MatchPhrasePrefixQueryBuilder matchQueryBuilder = QueryBuilders.matchPhrasePrefixQuery(“attachment.content”,“皇帝”);//查询条件,我们可以使用SearchSourceBuilder工具来实现。//查询条件,我们可以使用SearchSourceBuilder工具来实现。//精确匹配QueryBuilders.termQuery()//精确匹配QueryBuilders.termQuery()

2024-05-14 15:17:30 788

原创 elasticsearch 基于ik分词器的分词查询和模糊匹配_es分词查询模糊匹配(2)

查询会将分词解析出的分词。根据具体字段精确查询内容。ES查询条件 分词查询。

2024-05-14 15:16:54 186

原创 elasticsearch 基于ik分词器的分词查询和模糊匹配_es分词查询模糊匹配(1)

将查询的内容分解,提取。例如 文档数据库 ,就会被分词器 分解为 文档 ,数据 ,数据库等 查询返回更加有广度。查询会将分词解析出的分词。根据具体字段精确查询内容。ES查询条件 分词查询。

2024-05-14 15:16:17 171

原创 2024年最全医学图像处理(一)使用U-Net进行MRI的肝脏分割_chaos数据集(1),滴滴大数据开发面试

对于医学图像分割,第一想到的就是Unet. Unet在2015的MICCAI上首次提出,在医学数据集上效果很好,因而成为大多做医疗影像语义分割任务的baseline. 关于Unet网络结构,网上有许多详实的资料对其解析,我也不班门弄斧,只是简单记录一下我的学习和实践经历。InPhase和Outphase应该是T1模态图像的相位相反的两种呈现,我只选用了InPhase进行了训练,因为它跟GroundTruth的命名是一样的,处理起来也方便一点.GroundTruth的图像是多器官的,根据灰度范围进行判断。

2024-05-14 06:40:01 810

原创 2024年最全助力工业物联网,工业大数据之脚本开发【五】_物联网关脚本编程,面试官必问的技术问题之一

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取。

2024-05-14 06:39:25 249

原创 2024年最全助力工业物联网,工业大数据之服务域:安装主题分析实现【三十】,OMG学它

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!构建小结目标:了解物料域主题的设计模型路径实施小结目标:掌握DM层的设计路径实施DM层设计运营部门主题实现既有适合小白学习的零基础资

2024-05-14 06:38:49 602

原创 2024年最全助力工业物联网,工业大数据之业务系统结构【三】(4),开发8年的老大数据开发才知道

实战项目、大纲路线、讲解视频,并且后续会持续更新**

2024-05-14 06:38:13 300

原创 2024年大数据最新5G时代-运营商大数据企业获客最佳手段,含小米、腾讯、阿里

企业和销售必须应用运营商大数据深入分析客户需求,提供精准服务。所以说,大数据时代,企业将从砸钱的网销时代,转至运营商大数据精准营销时代。二、怎么样利用运营商大数据精准营销做好用户细分?想得到最佳的用户细分效果,可以利用运营商大数据挖掘(大数据精准营销)、用户画像体系、用户标签等一系列标准化标准流程可以更好地进行用户细分。运营商大数据精准标签建模,标签体系-个性化标签,个性化标签基于400固话、搜索词、URL、APP、位置、短信等五类维度,支持合作伙伴线上自助定制以上个性化标签需求。

2024-05-13 21:51:46 224

原创 2024年大数据最新50道JAVA基础算法编程题【内含分析、程序答案】【建议收藏,2024年最新一线互联网架构师筑基必备技能之大数据开发篇

System.out.println(“今天是”+year+“年的第”+analysis(year,month,date)+“天”);System.out.println(“截取的4~7位数字:”+ch[n-7]+ch[n-6]+ch[n-5]+ch[n-4]);System.out.println(strIn+“共”+(ch.length-1)+“个字符”);return “a的对手是”+a+" “+“b的对手是”+b+” "+“c的对手是”+c;//空格为了美观需要。

2024-05-13 21:51:10 663

原创 2024年大数据最新3D Slicer - 图像分割标注教程_3dslicer标注(3),作为大数据开发开发者

三维体数据一般为DICOM格式或者NIFIT格式,将包含.dcm文件序列的文件夹拖入3D Slicer,或者点击左上角的dcm图标:直接将.nii文件拖入3D Slicer即可。

2024-05-13 21:50:33 676

原创 2024年大数据最新2,不断提升自己创造溢价的能力

当 kafka消息为json格式,可以使用 ‘format’ = ‘json’ 在创建表时对json串进行解析,并将解析后的结果映射到表中的字段中去。当 kafka消息为csv格式,可以使用 ‘format’ = ‘csv’ 在创建表时对csv进行解析,并将解析后的结果映射到表中的字段中去。可以使用 ‘format’ = ‘raw’ 将kafka消息以原始格式映射到flink表中的string类型的字段中。来指定使用哪种格式来对kafka消息进行解析,并将解析的结果映射到表中的字段中去。

2024-05-13 21:49:57 855

原创 有没有完全自主的国产化数据库技术 _国产数据库都是基于什么技术(4)

由于SPL采用了新的理论模型,在市面上根本没有其他产品可以借鉴,更不可能有现成的开源代码可以“借用”,只能完全自己一行一行开发。所以,SPL的核心运算模型代码从头到脚都是完全自主原创的。连理论基础都是自己发明的,代码更加只能原创,你说够不够自主?说到这你可能发现,SPL看起来跟传统数据库不太一样,它的实际应用效果如何呢?

2024-05-12 18:54:52 788

原创 有没有完全自主的国产化数据库技术 _国产数据库都是基于什么技术(3)

由于SPL采用了新的理论模型,在市面上根本没有其他产品可以借鉴,更不可能有现成的开源代码可以“借用”,只能完全自己一行一行开发。所以,SPL的核心运算模型代码从头到脚都是完全自主原创的。连理论基础都是自己发明的,代码更加只能原创,你说够不够自主?说到这你可能发现,SPL看起来跟传统数据库不太一样,它的实际应用效果如何呢?

2024-05-12 18:54:16 833

原创 有没有完全自主的国产化数据库技术 _国产数据库都是基于什么技术(2)

不过,相对MySQL,基于PostgreSQL(俗称PG)封装的更多。这是由于PG采用BSD开源许可非常宽松,允许修改源码后再闭源,甚至不需要版权声明。因此PG成为众多国产数据库厂商的最爱,纷纷基于PG封装出自己的“原创”国产数据库,包括某些以创新闻名的著名大厂。正所谓“国外一开源,我们就原创”,有的厂家甚至懒得改造(也可能是没能力改造),连驱动程序都能直接借用。除了MySQL和PG这两大阵营外,也有一些基于其他开源数据库封装的,不过数量很少。

2024-05-12 18:53:40 763

原创 有没有完全自主的国产化数据库技术 _国产数据库都是基于什么技术(1)

不过,相对MySQL,基于PostgreSQL(俗称PG)封装的更多。这是由于PG采用BSD开源许可非常宽松,允许修改源码后再闭源,甚至不需要版权声明。因此PG成为众多国产数据库厂商的最爱,纷纷基于PG封装出自己的“原创”国产数据库,包括某些以创新闻名的著名大厂。正所谓“国外一开源,我们就原创”,有的厂家甚至懒得改造(也可能是没能力改造),连驱动程序都能直接借用。除了MySQL和PG这两大阵营外,也有一些基于其他开源数据库封装的,不过数量很少。

2024-05-12 18:53:04 927

原创 最全物流项目中SparkSQL的相关调优_spark 物流(1),2024年最新面试阿里

【代码】最全物流项目中SparkSQL的相关调优_spark 物流(1),2024年最新面试阿里。

2024-05-12 10:23:14 240

原创 最全深度学习(三)—— 神经元与神经网络_神经网络神经元(3),2024年最新大数据开发面试中常问的MMAP到底是啥东东

1w2⋯wnw1​,w2​⋯wn​ 为各个输入分量对应的权重参数bb 为偏置ff 为,常见的激活函数有tanh,sigmoid,relutt 为神经元的输出使用数学公式表示就是:tfWTAbt=f(WTA+b)可见,。1943 年,McCulloch 和 Pitts 将上述情形抽象为上图所示的简单模型,这就是一直沿用至今的。把许多这样的神经元按照一定的层次结构连接起来,就得到了神经网络。

2024-05-12 10:22:37 363

原创 最全深度学习---三好学生各成绩所占权重问题(3)_c++评三好学生代码,腾讯T4架构师

向量中有几个数字,一般就把它叫作几“维”的向量,例如刚才这个向量就是一个三维向量。向量的点乘与矩阵点乘的方法是一样的, 所以x * w的计算结果还是与x或w相同形态的三维向量,其中第一维的结果是 x中的第一维的数字 90乘以w中的第一维的数字2, 即90*2得到180,后面依此类推。之前设计的神经网络模型中,把学生的德育、智育、体育3项分数分别对应x1、x2、x3这了个输入层的节点,这样本身没有问题,但是假设又增加了一个艺术分数, 那么就需要在输入层增加一个x4节点,在隐藏层对应的也要增加一个n4节点。

2024-05-12 10:22:01 285

原创 最全消息中间件-面试题(2),binder机制原理面试

兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

2024-05-12 10:21:25 314

原创 大数据最新层次分析法_层次分析法ri表,2024年最新这份354页笔记的大数据开发进阶知识+大厂高频面试题

层次分析法(The Analytic Hierarchy Process即 AHP)是由美国运筹学家、匹兹堡大学教授T.L.Saaty于20世纪70年代创立的一种系统分析与决策的综合评价方法,是在充分研究了人类思维过程的基础上提出来的,它较合理地解决了定性问题定量化的处理过程。AHP的主要特点是通过建立递阶层次结构,把人类的判断转化到若干因素两两之间重要度的比较上,从而把难于量化的定性判断转化为可操作的重要度的比较上面。在许多情况下,决策者可以直接使用AHP进行决策,极大。

2024-05-12 01:45:36 822

原创 大数据最新宿友用一把王者的时间入门了【二叉树】,你又懂多少呢?乌拉~(1),想拿高工资

由于被访问的结点必是某子树的根,所以N(Node)、L(Left subtree)和R(Right subtree)又可解释为。🌍此处的递归结果:1 2 3 # # # 4 5 # # 6 # #🌍此处的递归结果:# 3 # 2 # 1 # 5 # 4 # 6 #🌍此处的递归结果:# # 3 # 2 # # 5 # # 6 4 1。📌很简单,第二次是在第一次调用的基础上累加的。📌很简单,第二次是在第一次调用的基础上累加的。根、根的左子树和根的右子树。的,因此后序基本操作中基本都是按照该概念实现的✨。

2024-05-12 01:45:00 627

原创 大数据最新容器云系列之Kubernetes基础资源对象介绍_容器云资源类型,2024年最新从三流大数据开发外包到秒杀阿里P7,

之前《》中介绍了Kubernetes的基本架构、功能组件以及部署,在本文继续介绍Kubernetes的一些基础的资源对象。

2024-05-12 01:44:24 991

原创 大数据最新完整大数据学习路线,看了就会有所收获_大数据分析学习路线,2024年最新超全大数据开发中高级面试复习大纲

实现Hadoop的HA(HA是High availability的缩写,即高可用,7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架,管理分布式环境中的数据。数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具,主要用于在Hive数据库与关系型数据库间进行数据的传递,可将关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。和Storm相关的NoSQL数据库,Redis——基于内存的数据库。

2024-05-12 01:43:47 619

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除