嘿哈哈哈哈哈哈-CSDN博客

原创 function ‘as_cholmod_sparse‘ not provided by package ‘Matrix‘

解决Error in irlba::irlba(L, nv = n, nu = 0, maxit = iters) : function 'as_cholmod_sparse' not provided by package 'Matrix'

2024-03-21 14:03:37 1288

原创 ERROR: Failed building wheel for torch_sparse

3.点进去复制网址https://pytorch-geometric.com/whl/torch-1.12.1+cu116.html，就可以安装好了。torch_scatter也适用。2.在https://pytorch-geometric.com/whl/选择匹配的版本。直接使用pip安装torch_sparse，出现错误。1.查看本机的pytorch版本。

2023-12-18 14:49:09 1275

原创 Bagging和随机森林

Bagging是Bootstrap aggregating的缩写，该方法的核心包括自助抽样（boostrap）和平均（aggregating）Bagging自助抽样过程通过有放回抽样的方式，获取与原数据集D大小一样的样本集Dt。给定n个样本的数据集D，对于迭代（t=1，2，…，T），用来创建分类器Mt,基于基分类器的投票返回类预测。一个样本有1-1/n的概率不会被选到，则一个样本不会被抽到的概率是lim⁡n→∞(1−1n)n=0.368 \lim_{n\rightarrow \infty }\le

2021-08-14 17:14:17 522

原创集成模型概述

集成多个模型的能力，得到比单一模型更佳的效果。为什么集成方法通常能够达到比单一模型更好的性能？1.增强模型的表达能力：单个感知机模型无法正确分类数据，集成三个感知机模型能正确分类数据2.降低误差:假设单个分类器误差p，分类器之间独立，T个分类器采用投票进行预测，得到集成模型H，集成分类器误差为T=0.5，p=0.1，ErrorH<0.01。基模型集成策略：多数投票方法（majority vote）平均（averaging）加权平均（weighted averaging）典型的

2021-08-14 10:41:03 1597

原创分类-朴素贝叶斯

朴素贝叶斯算法是基于贝叶斯定理和特征条件独立性假设的分类方法。特征条件独立性是指咋给定样本类别的前提下，任一特征的取值与其他特征都不相关。虽然这一假设在很多场景下与现实不相符合，但是朴素贝叶斯却在相关的任务上有着较好的效果。它在文本分类、垃圾邮件过滤、情感分析等文本分析问题，医学诊断和推荐系统等领域得到了广泛应用。贝叶斯定理假设X,Y是一对随机变量，它们的联合概率p(X=x,Y=y)是指X取值x且Y取值y的概率，条件概率p(Y=y|X=x)是指变量X在取值X的情况下，变量Y取值y的概率。联合概率和

2021-08-14 10:14:21 187

原创分类-决策树

决策树中的叶子节点代表决策的结果，决策的结果是根据树的根节点到该叶子节点的路径上的一系列问题来决定的。决策树模型的核心问题是如何根据训练数据自动生成决策树。数据示例：决策树：决策树的生成决策树的生成一般是从根节点开始，选择对应特征，然后选择该节点特征的分裂点，根据分裂点确定分裂节点。对于离散型特征，节点根据

2021-08-13 16:57:35 1612

原创分类-K近邻

K近邻 K近邻（KNN）是一种最经典和简单的有监督学习方法之一。当对数据的分布只有很少或者没有任何先验知识时，K近邻算法是一个很不错的选择。K近邻算法既能后用来解决分类问题，也能够用来解决回归问题。原理当对测试样本进行分类时，首先扫描训练集，找到与该测试样本最相似的k个训练样本，根据这k个样本的类别进行投票确定测试

2021-08-13 09:47:20 313

原创分类-逻辑回归

逻辑回归采用了回归分析的思想。然而是用来解决分类问题的模型，且通常解决的是二分类问题。逻辑回归是应用最为广泛的模型之一，如金融领域的风险评估、互联网广告点击预测等从线性回归到逻辑回归在线性回归中预测目标y是连续型，且可以写成样本x每一个特征的线性加权形式：y=wTx，其中w为参数向量。假设我们现在解决的是二分类问题，即预测目标y此时取值为1或-1.为了能够利用回归的方法解决二分类问题，我们需要对线性回归的输

2021-08-11 16:44:56 169

原创回归模型-简单线性回归

在一个回归模型中，我们需要关注或预测的变量叫做因变量，我们选取的用来解释因变量变化的变量叫做自变量。一元线性回归模型y=w0+w1x+ε，其中w0，w1为回归系数，ε为随机误差项，假设ε~N(0,σ2),则随机变量y~N(w0+w1x,σ2)。面对一个具体问题，给定样本集合D={(x1,y1),…,(xn.yn)},我们的目标是找到一条直线y=w0+w1x使得所有样本点尽可能落在它的附近。数据模型为(w0^,w1^)=argmin(w0^,w1^)∑i=1n(yi−w0−w1xi)2 (\hat{w

2021-08-11 10:22:08 1302

原创常用的数据转换方法

1特征编码模型输入的特征通常需要是数值型的，所以需要将非数值型特征转换为数值特征，如性别、职业、收入水平、国家、汽车使用品牌等。特征编码包括数字编码、One-Hot编码、哑变量编码方法。1.1数字编码一种简单的数字编码方法是从0开始赋予特征的每一个取值一个整数。对于等级型特征，按照特征取值从小到大进行整数编码可以保证编码后的数据保留原有的次序关系。原特征收

2021-08-10 16:17:50 9712

原创数值型数据距离

闵可夫斯基距离d(i,j)=∣xi1−xj1∣h+∣xi2−xj2∣h+...+∣xid−xjd∣hh d(i,j)=\sqrt[h]{\left | x_{i1}-x_{j1}\right | ^h+\left | x_{i2}-x_{j2}\right | ^h+...+\left | x_{id}-x_{jd}\right | ^h }d(i,j)=h∣xi1−xj1∣h+∣xi2−xj2∣h+...+∣xid−xjd∣hi=(xi1,xi2…xid),i=(xj1,xj2…x

2021-08-08 16:30:18 408

原创机器学习的基本方法

有监督学习数据集中的样本带有标签，有明确目标，目标：找到样本到标签的最佳映射典型方法：●回归模型：典型的有监督学习任务，样本的标签为连续型，如收入、销量等。有线性回归、岭回归、LASSQ和回归样条等●分类模型：典型的有监督学习任务，样本的标签为离散型。包括二分类和多分类问题。有逻辑回归、K近邻、决策树、支持向量机等无监督学习数据集中的样本没有标签，没有明确目标，根据数据本身分布的特点，挖掘反映数据的内在特性。如聚类、降维、排序、密度估计、关联规则挖掘强化学习智慧决策的过程，通过过程模拟和观

2021-08-08 10:34:35 379

原创 python（scikit-learn）实现k均值聚类算法

k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法from sklearn.cluster import KMeansimport numpy as npimport matplotlib.pyplot as pltx = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans = KMeans(n_clusters=2, random_state=0).fit(x)

2021-07-31 09:59:16 782

原创 k-均值聚类算法

1聚类1.1聚类定义聚类是把数据对象集合按照相似性划分为多个子集的过程。每个子集是一个簇(cluster)，使得簇中的对象彼此相似，但与其他簇中的对象不相似。聚类是无监督学习，因为给的数据没有类标号信息。1.2分类与聚类分类：有监督学习；通过有标签样本学习分类器。聚类：无监督学习；通过观察学习，将数据分隔成多个簇。1.3聚类的应用商业领域：聚类分析背用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。电子商务：聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好的帮助电子

2021-07-30 09:58:03 5685

原创 Apriori算法

1.1关联分析关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系，所发现的模式通常用关联规则或频繁项集的形式表示。关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或多个事物之间存在一定的关联关系，那么其中一个事物发生就能够预测与它相关联的其它事物的发生。项集：包含0个或多个项的集合。例如，{Milk,Bread,Diaper}k-项集：包含k个项的项集。支持度计数：包含特定项集的事务个数，σ({Milk,Bread,Diaper})=2支持度：包含项集事务数与总事务数的比值。例

2021-07-28 09:35:57 707

原创 hive-DML-查询-排序

全局排序（order by）只有一个Reducer，默认升序（ASC），降序为DESC每个 Reduce 内部排序（sort by）Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序(Reducer随机分区，区内排序），对全局结果集来说不是排序。分区（distribute by）Distribute By： distribute by 子句可以控制某个特定行应该到哪个 reducer，distribute by 类似 MR 中 partition（自定义

2021-07-27 11:49:05 86

原创 hive-DML-查询-join语句

hive支持以下连接表的语句join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_condition | table_referenc

2021-07-27 09:48:49 86

原创 hive-DML-查询

查询语法：SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT [offset,] rows]S

2021-07-22 10:51:55 111

原创 hive-DML-数据导出

1insert导出1.1将查询结果导出到本地insert overwrite local directory '/opt/hive/export/student' select * from student;1.2将查询结果格式化导出到本地insert overwrite local directory '/opt/hive/export/student1' row format delimited fields terminated by '\t' select * from student;

2021-07-21 17:00:28 70

原创 hive-DML-数据导入

将文件加载到表中（load）LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]如果指定关键字 LOCAL，则load 命令将在本地文件系统中查找文件路径。否则，在hdfs上查找文件。如果使用 OVERWRITE 关键字，则目标表（或分区）的内容将被删除并替换为filepath引用的文件；否则filepath引用的文件将被添

2021-07-21 16:04:02 98

原创 hive-DDL-修改表、删除表

修改表重命名表ALTER TABLE table_name RENAME TO new_table_name;增加/修改/替换列信息更新列ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type[COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];colum

2021-07-21 10:57:08 198

原创 hive-DDL-创建表

创建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [column_constraint_specification] [COMMENT col_comment], ... [constraint_specification])] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_

2021-07-21 10:13:30 203

原创 hive-DDL-创建、显示、更改、删除数据库

创建数据库CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];LOCATION：指定数据库在hdfs上的存放的目录例如：在根目录下创建名为hive1的数据库hive1create database if not exists hive1 lo

2021-07-20 16:39:43 208

原创 tar命令

命令格式：tar[必要参数][选择参数][文件] 命令参数：必要参数有如下：-A 新增压缩文件到已存在的压缩-B 设置区块大小-c 建立新的压缩文件-d 记录文件的差别-r 添加文件到已经压缩的文件-u 添加改变了和现有的文件到已经存在的压缩文件-x 从压缩的文件中提取文件-t 显示压缩文件的内容-z 支持gzip解压文件-j 支持bzip2解压文件-Z 支持compress解压文件-v 显示操作过程-l 文件系统边界设置-k 保留原有文件不覆盖-m 保留文件不被覆盖-

2021-07-10 19:55:59 67

原创 Hadoop删除节点（slave2）

临时删除节点hadoop-daemon.sh stop datanodehadoop-daemon.sh stop tasktracker1在master中配置hdfs-site.xml<property><name>dfs.hosts.exclude</name><value>/usr/hadoop/hadoop-2.7.7/etc/hadoop/excludes</value></property>2将需删

2021-07-06 16:46:21 406

原创 Hadoop添加节点（slave3）

1基础操作①关闭防火墙②配置时区③ntp时间同步协议2修改hosts文件所有文件添加slave33ssh免密配置master到slave3的免密操作4安装JDK、Hadoop5配置环境变量和Hadoop配置文件6修改所有的slaves文件，添加slave37在新节点启动启动DataNode进程hadoop-daemon.sh start datanode启动nodemanager进程yarn-daemon.sh start nodemanager主节点master刷新h

2021-07-06 16:32:10 468

原创 Crontab定时任务

crontab [-u username]　 -e (编辑工作表) -l (列出工作表里的命令) -r (删除工作表)　　　省略用户表表示操作当前用户的crontab用crontab -e进入当前用户的工作表编辑。每行是一条命令。crontab的命令构成为时间+动作，其时间有分、时、日、月、周，时间时间范围分钟0-59小时0-23（0表示子夜）日期1-31月份1-12星期0-6（0表示

2021-07-06 11:38:18 83

原创查询在具有最小内存容量的所有PC中具有最快处理器的PC制造商

本题目要求编写SQL语句，查询在具有最小内存容量的所有PC中具有最快处理器的PC制造商。提示：请使用SELECT语句作答。表结构:CREATE TABLE product( maker CHAR(20) , --制造商 model CHAR(20) NOT NULL, --产品型号 type CHAR(20), --产品类型 PRIMARY KEY(model));CREATE TABLE pc( model CHAR(20) NOT N

2021-04-19 23:29:57 1242 1

原创 SessionNotCreatedException:Message:session not created:This version of ChromeDriver only supports

用Python的selenium爬虫时：报如下错误：SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version xxx Current browser version is xxx with binary path：问题描述：用Python的selenium爬虫时，报如下错误：SessionNotCreatedException

2021-04-18 10:52:23 3686 2

原创 HTML基础 head和body

1.HTML文档结构1.1基本结构HTML文档由头部head和主体body两个部分组成。在头部head标记中，可定义标题、样式等，头部信息不显示在网页上；在主体body标记中，可定义段落、标题字、超链接、脚本、表格、表单等元素，主体内容是网页要显示的信息。<!DOCTYPE html><html> <head> <meta charset="utf-8"> <title></title> </head>

2021-04-11 12:16:49 5236 2

原创 Web前端开发技术

Web前端开发技术Web前端开发技术包括HTML5,CSS3,JavaScript,DOM,BOM,Ajax等。其中HTML5,CSS3,JavaScript三大技术被称为“web标准三剑客”。1.HTML（内容）HTML（Hyper Text Markup Language）是超文本标记语言。它是一种标记语言，而不是编程语言。HTML是web页面的结构。HTML使用标记来描述网页。网页的内容包括标题、副标题、段落、无序列表、定义列表、表格、表单等。HTML文档是用来描述网页，由HTML标记和纯文本

2021-04-11 10:35:41 4392 1

原创 Hadoop3.3.0完全分布式集群搭建详细教程

Hadoop3.3.0完全分布式集群搭建前言从零开始学习hadoop，记录成长过程，也是为了集群崩了还能搭好。话不多说，我们开始干活了！环境：虚拟机：VMware15Linux系统：centos7需要提前准备好的安装包：1.centos7镜像文件2.VMware安装包3.hadoop3.3.0和jdk1.8压缩包4.远程访问工具xshell和xftp接下来面对疾风吧一、VMware安装一直点击下一步就可以了，如果c盘不够，可以选择更改安装位置。密钥可以去网上搜安装完成

2021-03-29 22:57:11 8484 13

原创 mysql外键设置错误代码： 1822 Failed to add the foreign key constraint. Missing index for constraint...

mysql外键设置时出现错误错误代码： 1822Failed to add the foreign key constraint. Missing index for constraint ‘演员参演电影_ibfk_2’ in the referenced table ‘电影’出现错误的sql语句：后来就去检查电影表，发现电影表的主键是电影名称+拍摄年份，而在演员参演电影中建立外键约束时，只选中电影名称或拍摄年份作为外键约束，导致不匹配。正确语句：将演员参演电影中的两列主键均加入到外键约束中，问

2021-03-26 22:13:47 18977 7

m0_46698362的博客