- 博客(611)
- 资源 (3)
- 收藏
- 关注
原创 机器学习基础之《分类算法(7)—案例:泰坦尼克号乘客生存预测》
1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。在这个案例中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。Pclass:乘客班(1,2,3)是社会经济阶层的代表。
2023-09-18 11:25:15
32
原创 机器学习基础之《分类算法(6)—决策树》
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
2023-09-07 10:18:05
725
原创 机器学习基础之《分类算法(5)—朴素贝叶斯算法原理》
分类为三个类别,对每个样本用朴素贝叶斯分类之后,会得到这样的结果,会取概率比较大的作为最终的结果。这六个类别,它都有一定的可能性。1、什么是朴素贝叶斯分类方法。
2023-08-25 14:29:40
831
原创 机器学习基础之《分类算法(4)—案例:预测facebook签到位置》
place_id:预测用户将要签到的位置。accuracy:定位的准确率。row_id:签到行为的编码。x y:坐标系,人所在的位置。
2023-08-23 15:43:18
887
原创 机器学习基础之《分类算法(3)—模型选择与调优》
交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。我们之前知道数据分为训练集和测试集,但是为了让从训练得到模型结果更加准确。一、什么是交叉验证(cross validation)(1)训练集:训练集+验证集。作用是如何选择出最好的K值。(2)测试集:测试集。
2023-08-18 17:20:44
970
原创 机器学习基础之《分类算法(2)—K-近邻算法》
我不知道我在哪儿,但我知道我跟这几个人之间的距离,并且知道这5个人在哪个区。2、假设有一张北京地图,我不知道我在哪儿,目的是要知道我在北京的哪个区。N:neighbourhood,邻居。一、K-近邻算法(KNN)N:nearest,最近的。
2023-08-16 15:31:11
484
原创 机器学习基础之《分类算法(1)—sklearn转换器和估计器》
(3)sklearn.linear_model.LogisticRegression:逻辑回归。(1)sklearn.linear_model.LinearRegression:线性回归。说明:x_test测试集、y_predict预测的结果、y_test测试集中的目标值。第二步会执行transform(),用第一步计算出的结果,带入公式,进行最终的转换。2、调用estimator.fit(x_train, y_train) 计算。(2)sklearn.linear_model.Ridge:岭回归。
2023-08-15 16:56:37
566
原创 机器学习基础之《特征工程(5)—特征降维—案例》
字段:order_id,product_id,add_to_cart_order,reordered。字段:product_id,product_name,aisle_id,department_id。(5)aisle是过道的意思,为什么过道可以表示物品类别呢,因为超市一个过道基本是同一类商品。字段:order_id,user_id,eval_set,order_number,...(1)order_products_prior.csv:订单与商品信息。字段:aisle_id,aisle。
2023-08-11 14:54:35
436
原创 机器学习基础之《特征工程(4)—特征降维》
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。0维:标量,具体的数0 1 2 3...3维:多个二维数组嵌套。
2023-08-08 16:50:24
407
原创 机器学习基础之《特征工程(3)—特征预处理》
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。处理前,特征值是数值,处理后,进行了特征缩放。一、什么是特征预处理。
2023-08-04 17:00:13
395
原创 mysql批量insert
1、真正的批量insert,需要在配置里加上rewriteBatchedStatements=true和allowMultiQueries=true。2、此时jdbcTemplate.batchUpdate不再是一条一条insert,而是一句insert插入多条。但是它的返回值数组里,全是返回-2,如果代码有判断返回值需要修改。
2023-07-10 17:41:25
71
原创 机器学习基础之《特征工程(2)—特征工程介绍、特征抽取》
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。数学公式不能处理字符串,要把文本字符串转换成数值的类型。一个数据读取非常方便以及基本的处理格式的工具。机器学习算法 -- 统计方法 -- 数学公式。三、特征工程的位置与数据处理的比较。意义:会直接影响机器学习的效果。对于特征的处理提供了强大的接口。目前就是sklearn。二、用什么做特征工程。3、特征工程包含内容。
2023-07-05 15:17:51
541
原创 机器学习基础之《特征工程(1)—数据集》
scikit-learn网址:http://scikit-learn.org/stable/datasets。kaggle网址:https://www.kaggle.com/datasets。UCI网址:http://archive.ics.uci.edu/ml。(2)scikit-learn包含许多知名的机器学习算法的实现。(3)scikit-learn文档完善,容易上手,丰富的API。(2)覆盖科学、生活、经济等领域。3、在学习阶段用到的数据集。(1)收录了360个数据集。(1)大数据竞赛平台。
2023-07-04 15:21:10
712
原创 机器学习基础之《概述》
我们人从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略。医疗、航空、教育、物流、电商等等领域的各种场景。从数据(大量的猫和狗的图片)中自动分析获得模型(辨别猫和狗的规律),从而使机器拥有识别猫和狗的能力。从数据(房屋的各种信息)中自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价格的能力。应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类...应用场景:文本分类、情感分析、自动聊天、文本检测等等。
2023-06-30 17:00:30
327
原创 mysql配置文件my.cnf添加max_connections不生效
添加LimitNOFILE=65535到mysql服务文件mysqld.service中的[Service]段里面。1、my.cnf设置了max_connections = 2000,但是查看最大连接数是214。Com_select:MySQL从上一次启动到当前所执行的查询语句总数量。Com_commit:MySQL从上一次启动到当前所执行的提交语句总数量。4、显示用户正在运行的线程。3、重启服务然后查看。
2023-06-27 17:52:29
298
原创 Java基础之《spring security》
小项目用Shiro的比较多,因为相比Spring Security,Shiro的上手更加的简单。Spring Security是Spring家族中的一个安全管理框架。相比与另外一个安全框架Shiro,它提供了更丰富的功能,社区资源也比Shiro丰富。引入依赖后我们再尝试访问之前的接口就会自动跳转到一个Spring Security的默认登录页面,默认用户名是user,密码会输出在控制台。而认证和授权也是Spring Security作为安全框架的核心功能。一般Web应用都需要进行认证和授权。
2023-04-04 10:21:02
432
原创 Java基础之《minio(2)—springboot整合minio》
minio依赖okhttp和kotlin,springboot自带依赖版本可能比较老。目前工具类只有浏览器上传、下载功能,没有接口上传下载功能,还要根据使用场景完善。1、创建一个桶Bucket,名字叫test。引用jar包的工具类网上找一个参考参考。(3)为用户设置Access Keys。consoleAdmin:控制台管理。(1)创建一个用户user001。diagnostics:诊断。readwrite:读写。2、创建一个访问用户。5、minio配置类。6、minio工具类。7、minio测试类。
2023-03-24 15:01:07
637
原创 Java基础之《minio(1)—对象存储》
1、An object是二进制数据,有时也称为Binary大对象(BLOB)。blob可以是图像、音频文件、电子表格,甚至二进制可执行代码。3、minio对象存储使用buckets来组织对象。存储桶类似于文件系统中的文件夹或目录,其中每个桶可以容纳任意数量的对象。2、minio这样的对象存储平台提供了专用的用于存储、检索和搜索blob的工具和功能。4、minio存储桶提供与AWS S3存储桶相同的功能。1、minio AGPL v3协议是可以免费使用的。2、编辑sysctl.conf。
2023-03-23 10:31:51
530
原创 Java基础之《dubbo(3)—dubbo内核》
当服务的提供者(provider),提供了一个接口多种实现时,一般会在jar包的META-INF/services/目录下,创建该接口的同名文件。而当外部加载这个模块的时候,就能通过jar包META-INF/services/里的配置文件得到具体的实现类名,并加载实例化,完成模块的装配。一旦代码里涉及具体的实现类,就违反了可拔插的原则,如果需要替换一种实现,就需要修改代码。为了实现在模块装配的时候,不在模块里面写死代码,这就需要一种服务发现机制。该文件里面的内容就是该服务接口的具体实现类的名称。
2023-03-13 17:27:44
209
原创 Java基础之《dubbo(2)—dubbo架构原理初探》
registry会向consumer推送订阅的信息,providers、configurators、routers。1、provider启动时,会把所有接口注册到注册中心,并且订阅动态配置configurators。2、consumer启动时,订阅providers、configurators、routers。3、则consumer由原来的2次调用变为了3次调用(订阅注册中心、拉取元数据、调用服务)1、变更了访问地址的格式,注册中心只保留最核心的ip、port地址数据。二、dubbo 3.x。
2023-03-13 16:41:50
162
原创 Java基础之《dubbo(1)—dubbo基础入门》
dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。(3)自动发现:基于注册中心目录服务,使服务消费方能动态的查找服务提供方,支持平滑减少或增加机器。(2)集群容错:软负载均衡,失败容错,地址路由,动态配置等集群支持。将独立的业务抽取出来,形成独立的服务(商品,订单,交易)(3)发展一年半,技术人员80个,服务越来越多,SOA。描述:服务提供方的一些服务治理、性能调优的一些配置。描述:服务消费方的一些服务治理、性能调优的一些配置。
2023-03-08 11:27:06
418
原创 git冲突合并
remotes/origin/master和origin/master:都是远程仓库上的master分支。只要所有开发者都遵守这个规则,那么解决冲突是一件非常容易的事情。4、如果有冲突,根据提示,把冲突解决,保存文件。2、我们自己有一个分支用来修改代码,例如我的分支叫做。我把代码修改完成了,现在不知道有没有冲突。如果没有任何报错,那么直接转到第5步。master:本地仓库中的master分支。把你修改的文件添加到缓存区。分支下面,不能手动修改任何文件。二、一个解决冲突的常规流程。分支上修改任何文件。
2023-02-17 13:29:26
649
原创 Hadoop基础之《(11)—整合HBase+Phoenix+Hive—安装Hive》
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。(1)在Hadoop中我们用MapReduce程序实现的,需要些Mapper、Reducer和Driver三个类,并实现对应逻辑,相对繁琐。(2)Hive分析数据底层的实现是MapReduce(也可配置为Spack或者Tez)。(2)如果通过Hive SQL实现,一行就搞定了,简单方便,容易理解。(1)Hive中每张表的数据存储在HDFS。(8)如果是查询语句,返回计算结果。
2023-02-08 14:31:57
573
原创 Hadoop基础之《(10)—整合HBase+Phoenix+Hive—安装Phoenix》
官方给的解释为:在Client和HBase之间放一个Phoenix中间层不会减慢速度,因为用户编写的数据处理代码和Phoenix编写的没有区别,不仅如此Phoenix对于用户输入的SQL同样会有大量的优化手段(就像Hive自带sql优化器一样)。1、phoenix需要匹配hbase版本,hbase版本为2.5.2。2、复制server包并拷贝到各个节点的hbase/lib。2、为什么使用Phoenix。当前安装版本为5.1.3。一、Phoenix简介。1、Phoenix定义。5、连接Phoenix。
2023-02-08 13:38:18
686
原创 Hadoop基础之《(9)—整合HBase+Phoenix+Hive—安装HBase》
数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可以具有疯狂变化的列。(4)最终理解HBase数据模型的关键在于稀疏、分布式、多维、排序的映射。Apache HBase是以HDFS为数据存储的,一种分布式、可扩展的NoSQL数据库(非关系型,以k,v的形式存储数据)。Bigtable是一个稀疏的、分布式的、持久的多维排序map(代码里的hashmap是单维的,并且一定是有序的)。映射中的每个值都是一个未解释的字节数组。HBase可以认为是以HDFS为存储的数据库。
2023-02-03 16:44:59
739
原创 Hadoop基础之《(8)—yarn dr.who用户漏洞被挖矿》
dr.who用户执行了很多application,服务器被挖矿。因为yarn的8088端口REST API没有做权限控制,允许任意用户通过API创建任务。5、服务器上在/var/tmp/下就写入了11112222_test_11112222文件。1、检查/tmp和/var/tmp目录,删除异常文件。2、检查crontab -l,删除可疑脚本。2、构建json文件。
2023-01-31 15:49:10
489
原创 Hadoop基础之《(7)—Hadoop三种运行模式》
在wcinput下建立一个word.txt,输入一些单词。数据存储在HDFS,同时多台服务器工作。单机运行就是直接执行hadoop命令。一、hadoop有三种运行模式。数据存储在linux本地,不用。数据存储在HDFS,测试用。1、例子-统计单词数量。
2023-01-30 17:00:27
1665
原创 Hadoop基础之《(6)—Hadoop单机伪集群安装》
配置JAVA_HOME,yum安装openjdk的路径在/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.362.b08-1.el7_9.x86_64。(3)指定副本数量,在分布式文件系统中,数据通常会被冗余的存储多份,以保证可靠性和安全性,但是这里用的是伪分布式模式,节点只有一个,也有就只有一个副本。在/appserver/hadoop/hadoop-3.3.4/etc/hadoop/下建立slaves,配置节点的主机名或IP地址。1、修改hadoop-env.sh。
2023-01-30 13:35:25
410
原创 sm2证书生成(openssl生成公私钥对)
1、经查询openssl只有1.1.1这个版本支持国密算法,所以需要编译安装一个。cd到安装目录下的bin目录,使用./openssl调用。指定安装目录,不与系统自带openssl版本使用冲突。(4)私钥pkcs#1转pkcs#8。4、更新动态链接库数据。5、重新加载动态链接库。7、公私钥串生成方式。(2)用私钥生成公钥。
2023-01-29 14:40:32
3257
3
原创 Hadoop基础之《(5)—MapReduce概述》
MapReduce将计算过程分为两个阶段:Map和Reduce。2、Reduce阶段对map结果进行汇总。1、Map阶段并行处理输入数据。一、什么是MapReduce。
2023-01-27 15:26:26
547
原创 Hadoop基础之《(4)—Yarn概述》
YARN(Yet Another Resource Negotiator),简称YARN,另一种资源协调者,是Hadoop的资源管理器。(2)ApplicationMaster向ResourceManager申请资源,说我这个任务需要1G内存1个CPU。(3)ResourceManager会分配对应的节点来运行任务。容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。整个集群资源(内存、CPU等)的管理者。管理单个节点服务器的CPU、内存等。
2023-01-27 15:18:37
486
原创 Hadoop基础之《(3)—HDFS概述》
存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。HDFS(Hadoop Distributed File System),简称HDFS,是一个分布式文件系统。3、Secondary NameNode(简称2NN)在本地文件系统存储文件块数据,以及块数据的校验和。nameNode相当于mysql里的索引。每隔一段时间对NameNode元数据备份。1、NameNode(简称NN)2、DataNode(简称DN)
2023-01-27 14:58:21
64
原创 Hadoop基础之《(2)—Hadoop概述》
3、广义上来说,Hadoop通常是指一个更广泛的概念—Hadoop生态圈。1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决,海量数据的存储和海量数据的分析计算问题。一、Hadoop是什么。
2023-01-27 14:02:16
397
原创 Hadoop基础之《(1)—大数据基本概念》
1、Spark本身也是一个计算框架,它和Hadoop的MapReduce对比。不同点是Spark是一个基于内存的计算,MapReduce是基于磁盘的计算,Spark速度会比Hadoop快2-3倍。2、Spark也有Spark SQL的这个模块,让用户在Spark的API上面去写SQL。Hive的执行引擎,会把SQL语句翻译成一个MapReduce的任务去执行。1、Hadoop大数据框架,处理分布式环境下数据存储和计算。3、Hadoop的MapReduce处理计算。2、Hadoop的HDFS处理存储。
2023-01-23 15:57:36
1306
原创 Java基础之《netty(31)—用netty实现RPC》
2、模仿dubbo,消费者和提供者约定接口和协议,消费者远程调用提供者的服务,提供者返回一个字符串,消费者打印提供者返回的数据。底层网络通信使用netty4.x。3、创建一个消费者,该类需要透明的调用自己不存在的方法,内部需要使用netty请求提供者返回数据。1、dubbo底层使用了netty作为网络通讯框架,要求使用netty实现一个简单的RPC框架。2、创建一个提供者,该类需要监听消费者的请求,并按照约定返回数据。1、创建一个接口,定义抽象方法。用于消费者和提供者之间的约定。
2023-01-22 14:39:53
883
原创 Java基础之《netty(30)—RPC调用流程分析》
1、RPC(Remote Procedure Call)—远程过程调用,是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序无需额外的为这个交互作用编程。2、两个或多个应用程序都分布在不同的服务器上,它们之间的调用都像是本地方法调用一样。
2023-01-22 13:36:24
1512
gitflow工作流程.pdf
2020-03-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人