- 博客(2057)
- 资源 (28)
- 收藏
- 关注
原创 11.EM算法
11.EM算法本文主要转自:https://www.cnblogs.com/pinard/p/6912636.htmlEM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。11.1.EM算法要解决的问题我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。但是在一些情况下,我们得到的观察
2021-05-28 00:52:32 329
原创 8.Xgboost
8.Xgboost8.1.XGBoost算法https://www.cnblogs.com/mantch/p/11164221.htmlXGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X
2021-05-28 00:41:48 751
原创 6.支持向量机(SVM)、什么是SVM、支持向量机基本原理与思想、基本原理、课程中关于SVM介绍
6.支持向量机(SVM)6.1.什么是SVM6.2.支持向量机基本原理与思想6.2.1.支持向量机6.2.2.基本原理6.3.课程中关于SVM介绍6.支持向量机(SVM)6.1.什么是SVM以下转自:https://www.zhihu.com/question/21094489支持向量机/support vector machine (SVM)。可以从一个了解什么是SVM,以及要做的事情。在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜
2021-05-28 00:09:46 2500
原创 5.贝叶斯算法、单词拼写错误案例
5.贝叶斯算法5.1.单词拼写错误案例5.贝叶斯算法贝叶斯简介贝叶斯(约1701-1761) Thomas Bayes,英国数学家。贝叶斯方法源于他生前解决一个”逆概”问题写的一篇文章。生不逢时,死后它的作品才被世人认可。贝叶斯要解决的问题:正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例
2021-05-27 23:44:06 329
原创 4.K-MEANS聚类算法
4.K-MEANS聚类算法4.1.概述4.2.算法核心思想4.3.K-Means原理初探4.4.传统K-Means算法流程4.5.K-Means初始化优化K-Means++4.7.大样本优化Mini Batch K-Means4.8.K-Means与KNN4.9.KMEANS术语4.10.KMEANS算法优缺点4.11.K-Means算法API文档简介4.12.K-MEANS算法样例演示4.13.KMeans算法的十大应用4.13.1.文档分类器4.13.2.物品传输优化4.1
2021-05-27 23:13:10 9511 1
原创 3.TF-IDF算法介绍、应用、NLTK实现TF-IDF算法、Sklearn实现TF-IDF算法、算法的不足、算法改进
3.TF-IDF3.1.TF-IDF算法介绍3.2.TF-IDF应用3.3.NLTK实现TF-IDF算法3.4.Sklearn实现TF-IDF算法3.5.Jieba实现TF-IDF算法3.6.TF-IDF算法的不足3.7.TF-IDF算法改进—TF-IWF算法3.TF-IDF以下转自:https://blog.csdn.net/asialee_bird/article/details/814867003.1.TF-IDF算法介绍TF-IDF(term frequency–inverse
2021-05-27 22:53:28 2338
原创 2.1.决策树和随机森林
2.1.决策树和随机森林决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树是一种基本的分类和回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。分类树(决策树)是一种十分常用的分类方法。数据挖掘中决策树是
2021-05-27 22:21:44 2077
原创 ElasticSearch中的某个index的状态显示为red的问题、index显示Unassigned Shards
ElasticSearch中的某个index的状态显示为red的问题错误:Unassigned Shards 41.1.1.查看集群状态GET /_cluster/health?pretty结果类似:{ "cluster_name" : "elasticsearch", "status" : "red", "timed_out" : false, "number_of_nodes" : 3, "number_of_data_nodes" : 3, "active_p
2021-05-27 16:10:23 3357
转载 Hadoop - YARN NodeManager 剖析、NodeManger内部架构、分布式缓存、目录结构、状态机管理、Container 生命周期剖、资源隔离
一 概述NodeManager是运行在单个节点上的代理 ,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务等。NodeManager是YARN中单个节点的代理, 它需要与应用程序的ApplicationMaster和集群管理者ResourceManager交互;它从ApplicationMaster上接收有关Conta
2021-05-14 00:33:39 1221
转载 JournalNode的作用
JournalNode的作用NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步
2021-05-14 00:07:55 747 1
原创 rocketmq安装,内存配置,各种命令说明,windows下安装,控制台工具
1修改内存大小以下只是设置实例:cd /home/bigdata/installed/rocketmq-all-4.2.0 (140机器)vim bin/runserver.sh (调整nameserver启动的内存,不调整此文件,可能导致无法启动。)JAVA_OPT="${JAVA_OPT} -server -Xms4g -Xmx4g -Xmn2g -XX:MetaspaceSize=128m -XX:MaxMetaspaceSize=320m" vim bin/runbroker.sh
2021-05-12 19:19:20 4719 1
原创 ElasticSearch技术文档
Elastic Stack1.安装xxx.xxx.xxx.249 开发xxx.xxx.xxx.254 测试xxx.xxx.xxx.100 预发useradd elasticsearchpasswd elasticsearchinstalling Java version 1.8.0_131 or a later version in the Java 8 release series.vi /home/elasticsearch/ELK/elasticsearch-6.4.0/bin/el
2021-05-10 16:25:00 1035
转载 Apache Kafka消息格式的演变(0.7.x~0.10.x)
用 Kafka 这么久,从来都没去了解 Kafka 消息的格式。今天特意去网上搜索了以下,发现这方面的资料真少,很多资料都是官方文档的翻译;而且 Kafka 消息支持压缩,对于压缩消息的格式的介绍更少。基于此,本文将以图文模式介绍 Kafka 0.7.x、0.8.x 以及 0.10.x 等版本 Message 格式,因为 Kafka 0.9.x 版本的消息格式和 0.8.x 一样,我就不单独介绍了。设计良好的消息格式应该很容易支持版本的升级,并且新版本消息格式兼容老版本消息格式。现在我们就来看看 Kafk
2021-05-10 00:52:22 288
转载 Kafka创建Topic时如何将分区放置到不同的Broker中
熟悉 Kafka 的同学肯定知道,每个主题有多个分区,每个分区会存在多个副本,本文今天要讨论的是这些副本是怎么样放置在 Kafka 集群的 Broker 中的。大家可能在网上看过这方面的知识,网上对这方面的知识是千变一律,都是如下说明的:为了更好的做负载均衡,Kafka尽量将所有的Partition均匀分配到整个集群上。Kafka分配Replica的算法如下:将所有存活的N个Brokers和待分配的Partition排序•将第i个Partition分配到第(i mod n)个Broker上,这个Pa
2021-05-10 00:42:11 1678
转载 Kafka分区分配策略(Partition Assignment Strategy)
问题用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的数据。我们又知道,Kafka 存在 Consumer Group 的概念,也就是 group.id 一样的 Consumer,这些 Consumer 属于同一个Consumer Group,组内的所有消费者协调在一起来消费订阅主题(subscrib
2021-05-10 00:37:10 1903
转载 Kafka 是如何保证数据可靠性和一致性
学过大数据的同学应该都知道 Kafka,它是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,是流数据处理中间件的事实标准。本文将介绍 Kafka 是如何保证数据可靠性和一致性的。数据可靠性Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及 Leader 选举几个角度介绍数据的可靠性。Topic 分区副本在 Kafka 0.8.0 之前,Kafka 是没有副本的概念的,那时候人们只会用 Kaf
2021-05-10 00:29:21 2201
转载 图文了解 Kafka 的副本复制机制
让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会回过头来重新思考简化复杂行为的方法。Apache Kafka 中一个更细微的功能是它的复制协议(replication protocol)。对于单个集群上不同大小的工作负载,调整 Kafka replication 以让它适用不同情况在今天来看是有点棘手的。使这点特别困难的挑战之一是如何防止副本从同步副本列
2021-05-10 00:21:02 583
转载 32 道常见的 Kafka 面试题
最近很多粉丝后台留言问了一些大数据的面试题,其中包括了大量的 Kafka、Spark等相关的问题,所以我特意抽出时间整理了一些大数据相关面试题,本文是 Kafka 面试相关问题,其他系列面试题后面会陆续整理,欢迎关注过往记忆大数据公众号。1、Kafka 都有哪些特点?高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。•可扩展性:kafka集群支持热扩展•
2021-05-10 00:12:53 21920
转载 SpringBoot系列:Spring Boot集成定时任务Quartz
一、关于QuartzQuartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。在java企业级应用中,Quartz是使用最广泛的定时调度框架。在Quartz中的主要概念:Scheduler:调度任务的主要APIScheduleBuilder:用于构建Scheduler,例如其简单实现类SimpleScheduleBuilderJob:调度任务执行的接口,也即定时任务执行的方法JobDetail:定时任
2021-05-08 14:39:35 1236
原创 使用datax将hive中的数据导入到clickhouse
{ "core": { "transport": { "channel": { "speed": { "byte": 10485760 } } } }, "job": { "setting": {
2021-05-08 09:51:50 2958
转载 Flink On Yarn模式,为什么使用Flink On Yarn?Session模式、Per-Job模式、关闭yarn的内存检查,由Yarn模式切换回standalone模式时需要注意的点
Flink On Yarn模式原理为什么使用Flink On Yarn?在实际开发中,使用Flink时,更多的使用方式是Flink On Yarn模式,原因如下:-1.Yarn的资源可以按需使用,提高集群的资源利用率-2.Yarn的任务有优先级,根据优先级运行作业-3.基于Yarn调度系统,能够自动化地处理各个角色的 Failover(容错)○ JobManager 进程和 TaskManager 进程都由 Yarn NodeManager 监控○ 如果 JobManager 进程异常退出,
2021-05-06 11:03:37 2247
转载 DataNode启动后自动停止的问题( Incompatible clusterIDs in /xxx/xxx;namenode clusterID = xxxx;datanode clusterI)
25.25.37DataNode启动后自动停止的问题 java.io.IOException: Incompatible clusterIDs in /home/lxh/hadoop/hdfs/data: namenode clusterID = CID-a3938a0b-57b5-458d-841c-d096e2b7a71c; datanode clusterID = CID-200e6206-98b5-44b2-9e48-262871825.25.37.1概述解决hadoop启动hdfs时,data
2021-04-25 17:37:36 503
原创 ssh中添加隧道,访问目标机器上的地址
网络结构如下:注意:下面的跳板机可以通过curl -lv http://targetIp:port 访问到页面。配置案例:接着在本地的浏览器上输入:http://localhost:20000/,可以看到:说明该配置成功了。
2021-04-23 10:08:12 404
转载 Flink示例——Flink-CDC
Flink示例——Flink-CDC版本信息产品版本Flink1.11.1flink-cdc-connectors1.1.0Java1.8.0_231MySQL5.7.16注意:官方说目前支持MySQL-5.7和8,但笔者还简单测试过mariadb-10.0.38(对应MySQL-5.6)。包括增加、删除、更新、聚合,目前皆可用,但不排除未知问题。Mavan依赖pom.xml 依赖部分<properties> <proj
2021-04-14 13:46:19 2352 4
转载 基于 Flink SQL CDC的实时数据同步方案
本文转自:http://www.dreamwu.com/post-1594.htmlFlink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。传统数据同步方案基于 Flink SQL CDC 的数据同步方案(Demo)Flink SQL CDC 的
2021-04-14 10:18:22 2053
原创 01_Eclipse Memory analyzer的使用,hprof分析
1、 新建工程编写Demo,内容如下:package jvm;public class Demo { }DemoTest的内容如下:package jvm;import java.util.ArrayList;import java.util.List;public class DemoTest { public static void main(String[] args) { List<Demo> demoList = new ArrayList<
2021-04-12 23:51:39 1997
原创 1.18.2.5.Table API&SQL(查询表、Table API、SQL、混用Table API和SQL、输出表、翻译与执行查询、Blink planner、Old planner)等
1.18.2.5.查询表1.18.2.5.1.Table API1.18.2.5.2.SQL1.18.2.5.3.混用Table API和SQL1.18.2.6.输出表1.18.2.7.翻译与执行查询1.18.2.7.1.Blink planner1.18.2.7.2.Old planner1.18.2.5.查询表1.18.2.5.1.Table APITable API 是关于 Scala 和 Java 的集成语言式查询 API。与 SQL 相反,Table API 的查询不是由字符串
2021-04-11 15:38:31 791
原创 1.18.2.Table API&SQL(概念与通用API、两种计划器(Planner)的主要区别、创建 TableEnvironment、临时表、永久表、创建表、虚拟表、Connector 等)
1.18.2.概念与通用API1.18.2.1.两种计划器(Planner)的主要区别:1.18.2.2.Table API和SQL程序的结构1.18.2.3.创建 TableEnvironment1.18.2.4.在Catalog中创建表1.18.2.4.1.临时表(Temporary Table)和永久表(Permanent Table)1.18.2.4.1.1.屏蔽(Shadowing)1.18.2.4.2.创建表1.18.2.4.2.1.虚拟表1.18.2.4.2.2.Connec
2021-04-11 15:25:47 1074
原创 1.18.Table API & SQL(概念、依赖图、Table程序依赖、扩展依赖)
1.18.Table API & SQL1.18.1.概念1.18.1.1.依赖图1.18.1.2.Table程序依赖1.18.1.3.扩展依赖1.18.Table API & SQL1.18.1.概念Apache Flink 有两种关系型 API 来做流批统一处理:Table API 和 SQL。Table API 是用于 Scala 和 Java 语言的查询API,它可以用一种非常直观的方式来组合使用选取、过滤、join 等关系型算子。Flink SQL 是基于 Apach
2021-04-11 15:12:05 893
原创 1.17.Flink 并行度详解(Parallel)、TaskManager与Slot、Operator Level、Execution Environment Level、Client Level等
1.17.Flink 并行度详解(Parallel)1.17.1.TaskManager与Slot1.17.2.TaskManager与Slot1.17.3.并行度(Parallel)1.17.4.并行度(Parallel)的设置1.17.4.1.并行度设置之Operator Level1.17.4.2.并行度设置之Execution Environment Level1.17.4.3.并行度设置之Client Level1.17.4.4.并行度设置之System Level1.17.Fl
2021-04-11 15:04:22 1237
原创 1.16.Flink Window和Time详解、TimeWindow的应用、Window聚合分类之全量聚合、全量聚合状态变化过程-求最大值、Time介绍、EventTime和Watermarks等
1.16.Flink Window和Time详解1.16.1.Window(窗口)1.16.2.Window的类型1.16.3.Window类型汇总1.16.4.TimeWindow的应用1.16.5.CountWindow的应用1.16.6.Window聚合分类1.16.7.Window聚合分类之增量聚合1.16.7.1.增量聚合状态变化过程-累加求和1.16.7.2.reduce(reduceFunction)1.16.7.3.aggregate(aggregateFunction)
2021-04-11 00:05:12 1349
原创 1.15.Flink state(状态)管理与恢复、什么是state、Keyed State、Operator State、状态容错(生成快照,恢复快照),checkPoint简介,重启策略等
1.15.Flink state(状态)管理与恢复1.15.1.什么是state1.15.2.状态(State)1.15.3.Keyed State1.15.4.Operator State1.15.4.1.Snapshotting Operator State1.15.5.状态容错1.15.6.状态容错-生成快照1.15.7.状态容错–恢复快照1.15.8.checkPoint简介1.15.8.1.Barriers1.15.8.2.Recovery1.15.9.CheckPoint
2021-04-10 23:39:18 1472
原创 1.13.、1.14.Flink 支持的DataType和序列化、Flink Broadcast & Accumulators & Counters &Distributed Cache
1.13.Flink 支持的DataType和序列化1.13.1.Flink支持的DataType1.13.2.Flink的序列化1.14.Flink Broadcast & Accumulators & Counters &Distributed Cache1.14.1.DataStreaming中的Broadcast1.14.2.Flink Broadcast(广播变量)1.14.3.Flink Accumulators & Counters1.14.4.F
2021-04-10 23:02:54 1812
原创 1.12.Flink Kafka-Connector详解、Consumer消费策略设置、动态加载Topic、Consumers Offset 自动提交、Producer、容错等
1.12.Flink Kafka-Connector详解1.12.1.Kafka Consumer消费策略设置1.12.2.Kafka Consumer的容错1.12.3.动态加载Topic1.12.4.Kafka Consumers Offset 自动提交1.12.5.Kafka Producer1.12.6.Kafka Producer的容错-Kafka 0.9 and 0.101.12.7.Kafka Producer的容错-Kafka 0.111.12.Flink Kafka-Con
2021-04-10 22:51:24 2497
原创 1.11.Flink DataSetAPI、DataSet API之Data Sources、DataSet API之Transformations、DataSet Sink部分详解
1.11.Flink DataSetAPI1.11.1.DataSet API之Data Sources1.11.2.DataSet API之Transformations1.11.3.DataSet Sink部分详解1.11.Flink DataSetAPI1.11.1.DataSet API之Data Sources基于文件readTextFile(path)基于集合fromCollection(Collection)1.11.2.DataSet API之Transformat
2021-04-10 22:34:24 767
原创 1.10.Flink DataStreamAPI(API的抽象级别、Data Sources、connectors、Source容错性保证、Sink容错性保证、自定义sink、partition等)
1.10.Flink DataStreamAPI1.10.1.Flink API的抽象级别1.10.2.DatSource部分详解1.10.2.1.DataStream API之Data Sources1.10.2.2.DataSources API1.10.2.3.DataStream内置connectors1.10.2.4.Source容错性保证1.10.2.5.Sink容错性保证1.10.2.6.自定义sink1.10.2.7.Table & SQL Connectors1
2021-04-10 19:56:45 732
原创 Nacos 快速开始、版本选择、预备环境准备、下载源码或者安装包、从 Github 上下载源码方式、下载编译后压缩包方式、配置nacos、配置集群、启动服务器、服务注册&发现和配置管理、关闭服务器
1.Nacos 快速开始1.1.版本选择1.2.预备环境准备1.3.下载源码或者安装包1.3.1.从 Github 上下载源码方式1.3.2.下载编译后压缩包方式1.3.3.配置nacos1.3.4.配置集群1.3.5.启动服务器1.3.6.服务注册&发现和配置管理1.3.7.关闭服务器1.Nacos 快速开始这个快速开始手册是帮忙您快速在您的电脑上,下载、安装并使用 Nacos。1.1.版本选择您可以在Nacos的release notes及博客中找到每个版本支持的功能
2021-04-10 19:26:08 1077
原创 3.商品可视化展示与文本处理
3.商品可视化展示与文本处理3.1.依赖包安装准备工作,先安装scikit-learn,scipy,numpy等等(base) C:\Users\toto>pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simpleLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleRequirement already satisfied: scikit-lea
2021-04-10 12:37:15 1003 1
原创 2.5.jieba分词工具、Jieba安装、全模式/精确模式、添加自定义词典、关键词抽取、词性标注、词云展示
2.5.jieba分词工具2.5.1.Jieba安装2.5.2.全模式/精确模式2.5.3.添加自定义词典2.5.4.关键词抽取2.5.5.词性标注2.5.6.词云展示2.5.jieba分词工具2.5.1.Jieba安装(base) C:\Users\toto>pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simpleLooking in indexes: https://pypi.tuna.tsinghua.edu.
2021-04-10 11:50:36 1356
easyui资料
2014-02-22
17个在线编辑器,包括kindeditor,STEditor,HTMLArea3.0last20071025等
2012-07-22
二手购物网源码
2012-05-31
强大的购物网代码(java)
2012-05-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人