大二-大三-大数据项目
文章平均质量分 82
张张同学!
其实路上风再大也没有关系。
展开
-
大数据项目(BP神经网络)
1、基础概念人工神经网络的概念:其从信息处理角度对人脑神经元网络进行抽象,构建某种简单的模型,按不同的连接方式组成不同的网络。在工程与学术界我们通常把人工神经网络简称为神经网络或类神经网络。神经网络的概念:是一种运算模型,由大量的节点(也可以说神经元)之间连接构成。每个节点代表一种特定的输出函数,称为激励函数或者激活函数。每两个节点间的连接都代表一个对于通过连接信号的加权值,称之为权重。这相当于人神经的记忆(就是仿生),神经网络的输出则根据网络的连接方式、权重值和激活函数的不同而不同。而网络本身通常都是原创 2021-08-08 17:18:17 · 1305 阅读 · 0 评论 -
大数据项目13(Python实现聚类算法)
Python实现聚类算法一、k-means 聚类算法思想1. 分步解析2. 代码3.结果一、k-means 聚类算法思想先随机选择k个聚类中心,把集合里的元素与最近的聚类中心聚为一类,得到一次聚类,再把每一个类的均值作为新的聚类中心重新聚类,迭代n次得到最终结果1. 分步解析初始化聚类中心首先随机选择集合里的一个元素作为第一个聚类中心放入容器,选择距离第一个聚类中心最远的一个元素作为第二个聚类中心放入容器,第三、四、、、N个同理,为了优化可以选择距离开方做为评判标准迭代聚类依次把集合里原创 2021-08-06 15:36:03 · 780 阅读 · 0 评论 -
大数据项目8(sklearn决策树)
决策树一、了解什么是决策树二、决策树模型三、决策树-信息增益四、信息增益比五、ID3算法六、决策树的剪枝一、了解什么是决策树分类分类树:分类标签值(天气?是否垃圾网页?)定性决策树:定量决策树的过程:(1)决策树的特征选择(2)决策树的生成(ID3ID3ID3,C4.5C4.5C4.5,~)(3)决策树的剪枝决策树是什么?(decision tree) 是一种分类与回归方法,主要用于分类,决策树模型呈现树形结构,是基于输入特征对实例进行分类的模型。我认为决策树其实是原创 2021-07-24 08:20:06 · 291 阅读 · 0 评论 -
大数据清洗4(pandas-DataFrame常用操作)
pandas-DataFrame常用操作一、数据查看与描述二、缺失值的处理1、查看缺失值2、填充缺失值3、删除缺失值三、数据的合并1、pd.concat()函数2、pd.merge()函数四、分组运算五、数据透视表一、数据查看与描述【首先讲述一下如何进入jupyter notebook,需要下载anaconda,在anaconda里面下载numpy以及pandas,具体操作:软件安装,然后打开控制页面,输入jupyter notebook,即可,复制所给链接就可以进入啦】进入正题df = pd.原创 2021-07-23 15:59:33 · 1561 阅读 · 11 评论 -
大数据清洗3(pandas - 基本数据结构)
pandas - 基本数据结构一、series1、创建series2、series常用属性3、series的特性3.1 series的数组特性3.2 series字典特性3.3 矢量化和标签对齐二、DataFrame1、创建DataFrame1.1 通过数组创建dataframe1.2 通过字典创建dataframe2、dataframe的列操作2.1 增加列2.2 删除列3、索引/选择3.1 基于标签的索引3.2 基于位置的索引3.3 布尔索引import numpy as np 、import pa原创 2021-07-22 15:55:26 · 615 阅读 · 1 评论 -
大数据清洗2(元素操作)
元素操作一、访问ndarray中的元素--索引和切片1、基本索引和切片1.1 一维数组的索引和切片1.2 高维数组的基本索引和切片2、高级索引2.1 整数数组索引和切片2.2 布尔索引二、NumPy运算1、算术运算相关函数2、取整函数3、统计函数最大值 最小值 均值 中位数 标准差 方差4、排序和索引函数5、唯一化6、集合逻辑一、访问ndarray中的元素–索引和切片import numpy as np #全部行都能输出 from IPython.core.interactiveshell impor原创 2021-07-21 17:08:43 · 1186 阅读 · 7 评论 -
大数据清洗1(numpy之Ndarray对象)
numpy之Ndarray对象一、了解数据清洗二、了解numpy库1. 发展:2. 安装:3. 特性三、NumPy-Ndarray对象1. 创建Ndarray一、了解数据清洗真实数据中,包含了很多大量的缺失值,大量的噪音,也有人为因素录入错误,所以不利于算法模型的训练。二、了解numpy库1. 发展:2. 安装:方法一:方法二:安装anacond3. 特性三、NumPy-Ndarray对象NumPy 的核心是 ndarray 对象,这个对象封装了同质数据类型的n维数组。(数组,原创 2021-07-20 15:35:38 · 568 阅读 · 0 评论 -
大数据项目4(数据清洗与集成)
数据清洗与集成一、概述二、数据抽取、转换与装载三、数据清洗1. 什么是数据清洗?2. 数据清洗的意义3. 数据质量的重要性四、数据异常的不同类型1. 语法类异常2. 语义类异常3. 覆盖类异常五、数据质量六、数据清洗的任务和过程1.步骤2. 数据清洗的具体方法七、 数据集成1. 什么是数据集成?2. 数据集成需要解决的问题3. 数据集成的模式(1). 联邦数据库模式(2). 数据仓库模式(3). 中介者模式一、概述对数据进行清洗与集成。具体的分为三步骤:数据抽取、转换与装载数据清洗数据集成原创 2021-07-20 14:56:11 · 1737 阅读 · 0 评论 -
大数据项目3(数据规约)
数据规约一、简介二、数据分析与挖掘体系位置三、数据规约方法1、维度规约(Dimensionality Reduction)(1)小波变换(Wavelet Transform,WT)(2)主成分分析(Principal Component Analysis,PCA)(3)特征集选择(Feature Subset Selection,FSS)2、数量规约(Numerosity Reduction)(1)参数化数据规约(2)非参数化数据规约一、简介在数据集成与清洗后,我们能够得到整合了多数据源同时数据质量完好原创 2021-07-20 14:43:20 · 4011 阅读 · 0 评论 -
大数据项目2(数据挖掘之数据预处理相关概念)
数据预处理相关概念一、总述一、总述需要查看这一篇讲述了基本的方法以及分类原创 2021-07-20 14:38:01 · 519 阅读 · 0 评论 -
大数据项目1(数据预处理问题)
数据预处理一、了解什么是预处理二、为什么要进行预处理一、了解什么是预处理数据预处理就是一种数据挖掘技术,本质就是为了将原始数据转换为可以理解的格式或者符合我们挖掘的格式。二、为什么要进行预处理在真实世界中,数据通常是不完整的(缺少某些感兴趣的属性值)、不一致的(包含代码或者名称的差异)、极易受到噪声(错误或异常值)的侵扰的。因为数据库太大,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的挖掘结果。...原创 2021-07-19 10:22:07 · 1543 阅读 · 0 评论