创作者mateo-CSDN博客

原创机器学习--处理数值型数据（二）

摘要本文介绍了异常值的识别与处理方法。异常值是指显著偏离数据分布的极端值，可能是噪声或真实极端情况。常见识别方法包括：3σ原则（正态分布）、箱线图法（不依赖分布）、聚类法和孤立森林（高维数据）。处理方式需结合异常值成因和占比，包括删除、修正、替换（如中位数）、标记或分箱。案例演示了电商用户消费数据的异常值分析，使用3σ原则、箱线图法和椭圆包络法识别异常，并区分噪声异常值（删除）和真实极端值（标记为VIP并用中位数替换）。强调异常值处理需平衡信息保留与模型鲁棒性，没有绝对准则，需根据具体情况判断。

2025-12-01 17:27:25 770

原创机器学习--处理数值型数据（一）

摘要本文系统介绍了机器学习中数值型数据预处理的关键方法，包括特征缩放、标准化、归一化、多项式特征生成和特征转换。特征缩放通过Min-Max归一化等方法消除量纲差异；标准化使特征符合正态分布；归一化处理样本内部特征关系；多项式特征增强模型非线性拟合能力；特征转换则通过对数变换等方法优化数据分布。这些预处理步骤能显著提升模型训练效果，需根据数据类型、分布特点和算法需求选择合适方法。文中还提供了Python代码示例，展示了scikit-learn库中相关函数的实际应用。

2025-11-27 16:29:57 776

原创 mapreduce简单案例----求共同关注的粉丝

目的：第一阶段的目的是统计每个用户的关注列表，并整合为键值对。第二阶段的目的是计算每两位用户之间的共同关注好友，并整合为键值对。数据类型变化：在第一阶段，键值对的变化是从用户和关注列表到好友和拥有该好友的用户列表字符串。在第二阶段，键值对的变化是从好友和拥有该好友的用户列表字符串到用户组合和共同关注好友列表。这样的设计和变化使得整个 MapReduce 过程在不同阶段能够有效地处理数据，从而实现了共同好友查找系统的功能。数据集：张三:谢霆锋,陈奕迅,邓昊天,风清扬,伊森,奥布莱恩。

2024-01-11 14:44:59 1283 1

原创 Spark MLlib ----- ALS算法

在谈ALS（Alternating Least Squares）之前首先来谈谈LS，即最小二乘法。LS算法是ALS的基础，是一种数优化技术，也是一种常用的机器学习算法，他通过最小化误差平方和寻找数据的最佳匹配，利用最小二乘法寻找最优的未知数据，保证求的数据与已知的数据误差最小。LS也被用于拟合曲线，比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y1),(x2,y2),(x3,y3)…}其符合线性回归，假设其符合的函数为如下：y = w+ wx。

2024-01-08 17:49:57 2750

原创我的创作纪念日

提示：你过去写得最好的一段代码是什么？提示：当前创作和你的工作、学习是什么样的关系。提示：职业规划、创作规划等。

2023-11-28 15:55:34 340 1

原创 spark学习一-------------------Spark算子最详细介绍

简介map算子：map算子是将rdd中的数据一条一条传递给后面的函数，将函数的返回值构建成一个新的rdd。map算子是不会生成shuffle。后面的分区数等于map算子的分区数。//saprk代码的入口/*** 构建rdd的方法* 1.读取文件* 2.基于scala的集合构建rdd ---- 用于测试*//*** map算子* 将rdd中的数据一条一条传递给后面的函数，将函数的返回值构建成一个新的rdd* map 不会产生shuffle，map之后的分区数等于map之前rdd的分区数。

2023-11-28 09:48:55 716

原创线性回归模型（7大模型）

先从一个简单的问题开始：如何用一个线性函数来拟合一个二维数据集？假设我们有一个二维数据集，其中每个样本都由一个x和一个y组成。我们可以用一个线性函数 y = ax + b 来拟合这个数据集，其中a和b是待定的系数。我们的目标是找到最佳的a和b，使得这个线性函数能够尽可能地拟合这个数据集。这就是线性回归的基本思想：通过拟合一个线性函数来预测一个连续型的输出变量。这是一个非常简单的案例。

2023-04-26 11:12:38 21353

原创 sqoop的安装使用

sqoop安装教程

2023-02-22 22:42:37 313

原创使用OGG实现Oracle到kafka数据同步（详细版本）

使用OGG实现Oracle到kafka数据同步

2023-01-04 14:38:31 2825 3

原创国网云（华为组件）使用

华为云大数据组件的基本使用介绍，很详细

2022-11-25 16:15:22 3070 3

原创华为云各项指标介绍

大数据开发--华为云产品的基本介绍

2022-11-16 09:31:19 1267

原创 Python 基础教学（九）-----函数有这个就够了

函数介绍

2022-10-19 16:35:29 231

原创 python基础（五）----时间模块

详细介绍时间模块，这个用途蛮大的

2022-10-19 14:32:46 789

原创 Python基础（四）----字典与集合

python的字典和集合的介绍

2022-10-12 15:39:34 564

原创 python基础（三）-----序列、列表与元组

序列、列表与元组的介绍

2022-10-10 16:24:22 691

原创 python基础（二）--数字和字符串

介绍了数值型数据类型以及简单计算、字符型数据类型

2022-10-09 10:39:10 1432 3

原创 python基础知识一

这里介绍一些python的基础知识，比如标识符、基本语句等

2022-10-09 09:28:24 2645 1

原创 Maven安装

如上图，点击Installations，在右侧点击add添加Maven_home替换掉eclipse自身的，同时点击User Settings添加maven的配置文件settings.xml。这个时候重启eclipse，然后点击windows-->Preferences-->Maven这个时候就说明安装成功。如果你采用2这种方式的话，一定要写“\\”，不然eclipse无法正确识别你填写的路径，推荐使用1。在系统环境变量中配置MAVEN_HOME,同时将%MAVEN_HOME%\bin加入的path中。

2022-09-08 15:05:42 316 1

原创 5个python小游戏，python学习放松

做几个小游戏来放松写代码的枯燥

2022-09-08 10:03:32 7090 1

原创 Python实现【实时】显示处理进度的6种形式

python进度条实现

2022-09-08 09:59:15 2396

原创大数据运维工作（Linux，OGG，链路监控，Hadoop运维等）

大数据运维工作，主要介绍：Linux运维，Hadoop运维，ogg运维，链路监控运维等

2022-09-06 16:30:18 1901

原创 OGG基本框架、安装、运维、报错处理、监控命令

● Extract● Data pump● Trails● Collector● Replicat● Manager利用抽取进程(Extract Process)在源端数据库中读取Online Redo Log或者Archive Log，然后进行解析，只提取其中数据的变化信息，比如DML操作——增、删、改操作，将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标系统。目标端有一个

2022-07-06 10:40:38 1978 2

原创 ogg的安装以及mysql到mysql的同步处理

这里根据官方文档进行安装。这里不做讲解。有两种方式安装ogg：选择自己对应的系统，因为我这里是linux系统，所以我选择下载第一个。这里直接给出下载地址点击即可下载环境介绍，为了节省资源OGG我选择和原库安装在了同一台服务器安装之前，介绍一下ogg的目录用途说明：介绍完成以后，我们首先来配置源库和目标库OGG19C可以使用基于日志的DDL复制，要求添binlog_row_metadata为full模式才可以实现目标库配置主备数据库创建同步用户并附权1.3 OGG配置在19C的OGG中ogg可

2022-07-04 08:37:40 1819 1

原创 Oracle GoldenGate（OGG）到入土

Oracle GoldenGate（ogg）的基本介绍、安装与使用

2022-06-26 11:00:28 591

原创 Flume的安装及使用

Flume的安装及使用文章目录Flume的安装及使用Flume的安装1、上传至虚拟机，并解压2、重命名目录，并配置环境变量3、查看flume版本4、测试flume5、flume的使用Flume的安装1、上传至虚拟机，并解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/在环境变量中增加如下命令，可以使用 soft 快速切换到 /usr/local/softalias soft=‘cd /usr/local/soft/’

2022-04-10 10:47:21 421 1

原创 DataX的安装及使用

datax的安装以及使用

2022-04-09 09:37:10 337

原创 scala方法

scala方法学习

2022-03-26 14:34:53 610

原创 scala基础

scala基础结束

2022-03-26 14:32:47 1536

原创 spark学习-----Spark 算子

学习之前先介绍一下什么是sparkSpark 是基于内存计算的大数据并行计算框架，因为它基于内存计算，所以提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark 部署在大量廉价硬件之上，形成集群。RDD介绍RDD概念RDD(Resilient Distributed Dataset) 弹性分布式数据集，是 Spark 中最基本的数据对象，它代表一个不可变，可区，里面的元素可并行计算的集合。这里虽然是集合但是里面却没有数据。特点自动容错性.

2022-03-25 10:04:37 2310

原创 Kafka第二天笔记

Kafka中的分区副本机制、消费组Consumer Group Rebalance机制、消费者的分区分配策略、副本的ACK机制kafka的原理：leader和follower

2022-03-25 09:57:41 284

原创 Kafka第一天笔记

kafka的基本介绍

2022-03-25 09:53:43 248

原创 flink学习

flink的历史介绍，flink安装以及算子介绍

2022-03-21 19:54:06 2472

原创 spark学习----SparkContext理解、资源调度及源码分析

SparkContext详细理解

2022-03-16 15:07:45 819

原创 HBase学习-----javaAPI详细教程

HBase的javaAPI详细教学，步骤讲解特别清晰

2022-03-02 20:51:02 3454

原创 HBase学习-------Phoenix学习

Phoenix的学习

2022-03-01 19:46:47 347

原创 hbase学习----基本操作

断更只是为了更好的出现，这里带来最详细的hbase的笔记。这里我们详细的来看hbase的教学，今天这一章节主要对hbase做了基本的介绍和一些基本的使用。hbase的简介一、Hadoop和HbaseHBase是基于Hadoop集群之上来搭建的Hadoop有一些局限性的：做一些批量的数据处理，吞吐量比较高，但是它对随机查询、实时操作性能是不行的HBase是NoSQL数据库的一种，它跟传统的RDBMS有很大的差别不支持JOIN的，摒弃了关系型模型，而且在HBase中只有一种数据类型：b.

2022-03-01 01:05:25 989

原创 HBase学习-----------基础介绍

Hbase的基础介绍

2022-02-21 00:52:19 336

原创 hbase学习----------hbase的安装

hbase-1.4.6的安装

2022-02-20 19:16:02 231

原创大数据开发Hadoop-----深入 yarn基础架构

这里开始来说Hadoop的资源管理系统—yarn，yarn作为Hadoop的核心的组建之一，我们应该清楚的了解他的工作机制和基础架构。yarnyarn的由来 jobtracker 兼顾资源管理和作业控制跟踪功能跟踪任务，启动失败或迟缓的任务，记录任务的执行状态，维护计数器），压力大，成为系统的瓶颈可靠性差：采用了 master/slave 结构，master 容易单点故障资源利用率低：基于槽位的资源分配模型，槽位是一种粗粒度的资源划分单位，通常一个任务不会用完一个槽位的.

2022-02-15 00:57:27 246

原创 String数据结构

redis的string 的数据结构

2022-01-21 23:19:08 398

留守儿童数据集，可视化分析，hive离线分析

留守儿童数据集，python可视化分析，hive离线分析。 hadoop+hive+mapreduce+spark分析

2024-01-08

基于spark的咖啡数据分析

基于spark的咖啡数据分析，使用sparkrdd对销售咖啡数据分析，并对其进行可视化处理。框架：idea+hadoop+spark+python 包括源码和文档，学习的利器

2024-01-08

区块链论文以及研究成果

面向空间数据的区块链存储机制设计与实现_付炬面向空间数据的区块链存储机制设计与实现：空间数据存储结构：空间数据可能涉及地理坐标等信息，因此需要设计合适的存储结构。可以考虑使用多维索引或区域树等数据结构来组织空间数据。智能合约：利用智能合约实现空间数据的验证和访问控制。确保只有授权用户可以访问特定的空间数据，同时通过智能合约实现数据的不可篡改性。去中心化存储：考虑使用去中心化存储技术，将空间数据分散存储在网络中的多个节点上，提高数据的可用性和抗攻击性。数据加密：对敏感的空间数据进行加密处理，确保数据的安全性。只有授权用户能够解密和访问相关的空间信息。分布式共识算法：选择适当的共识算法，确保网络中的节点对于空间数据的修改达成一致，保障数据的一致性和可信度。毕业论文_基于区块链的电子病历系统设计与实现v7 基于区块链的电子病历系统设计与实现：数据隐私和安全：通过区块链的去中心化和加密特性来确保电子病历的隐私和安全。使用权限控制和智能合约来管理数据的访问。不可篡改性：利用区块链的不可篡改性确保病历数据的真实性。一旦数据被记录到区块链上，就不可修改，防止

2024-01-08

新闻、健身实时数据基于spark+kafka+flume+echarts可视化+hadoop

新闻、健身实时数据,基于spark+kafka+flume+echarts可视化+hadoop的项目。有文档有教程。

2024-01-08

旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统，是一套开源的项目，系统具有完整的源代码和数据库，

旅游自助系统系统拟实现主要包含前台和后台两个模块 * 前台功能拟实现(安卓应用)： * 管理员后台拟实现(WEB应用) 1、开发环境为MyEclipse 10，数据库为MYSQL，使用java语言开发 2、启动时候需要先启动app服务端，然后才能调到数据，App可以用Eclipse或者AS运行

2022-08-29

博客系统：web前端+管理后台+java源码

Mblog 开源Java博客系统, 支持多用户, 支持切换主题配置：src/main/resources/application-mysql.yml (数据库账号密码)、新建db_mblog的数据库运行：src/main/java/com/mtons/mblog/BootApplication 访问：http://localhost:8080/ 后台：http://localhost:8080/admin 账号：默认管理员账号为 admin/12345 TIPS: 如遇到启动失败/切换环境变量后启动失败的,请先maven clean后再尝试启动 IDE得装lombok插件

2022-08-29

TA关注的人

留守儿童数据集，可视化分析，hive离线分析

基于spark的咖啡数据分析

区块链论文以及研究成果

新闻、健身实时数据 基于spark+kafka+flume+echarts可视化+hadoop

旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统， 是一套开源的项目，系统具有完整的源代码和数据库，

博客系统：web前端+管理后台+java源码

java数据结构课程设计报告.zip

hive的函数大全.rar

python实现各种小game.zip

各类html模版，网站模板.zip

pyton爬虫各种学习代码.zip

人工智能项目，肯定有你想要的.zip

ogg数据不同步的问题

新闻、健身实时数据基于spark+kafka+flume+echarts可视化+hadoop

旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统，是一套开源的项目，系统具有完整的源代码和数据库，