![](https://img-blog.csdnimg.cn/ad9a9bcea77b4e748c7e9b90ade972cd.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Big Data Processing & Analysis
文章平均质量分 77
Some common big data algorithms, such as: big data clustering, big data dimensionality reduction, big data regression analysis, big data asymptotic fu
NP_hard
ShenZhen University-CSSE-CS
️ Github: Np_hard (David-deng-yeah)
Interest: Database-Kernel & Distributed-System & Machine-Learning
展开
-
大数据处理与分析---课程总结
文章目录实验大作业本学期的大数据处理与分析课程相当精品,老师不仅给我们提供了精美详细的电子版板书(纯手写),课堂上也对板书的内容进行了精彩的公式推导,并且举了一些生动的例子以方便我们直观理解。课程内容相当多,基本涵盖了大数据背景下的存储容灾算法、分布式数据一致性算法、分布式机器学习算法、大数据统计分析算法等多种算法,是一个相当合适的大数据算法入门课程本次课程的全部实验以及大作业都放到GitHub上了,需要的学弟学妹们可以自取,A+水平并且本专栏里也有对每个实验的博客讲解,可以参考实验实验大作原创 2022-01-18 00:42:37 · 2442 阅读 · 0 评论 -
大数据渐进学习性能框架测试
文章目录实验目的实验内容数据划分模型训练渐进融合RSP数据块下渐进融合HDFS数据块下渐进融合实验结论不懂RSP的请看我的这篇不懂HDFS的请看我的这篇实验目的掌握大规模数据集渐进融合学习框架的使用方法实验内容将大规模数据集Magic Dataset(记作 )随机划分成训练集 D^\hat DD^和验证集DDD两部分,之后确定训练集 的随机样本划分D^1,D^2,...,D^k\hat D_1,\hat D_2,...,\hat D_kD^1,D^2,...,D^k,其中 且对于任意的原创 2021-12-26 19:12:30 · 215 阅读 · 0 评论 -
大数据概率密度函数估计
文章目录实验目的实验内容实验过程对一维大规模数据进行核密度估计常用的核函数绘制概率密度图核密度估计函数的差异比较将总体划分为RSP数据块,并比较RSP的kde与总体的kdeRSP数据块的划分比较差异实验目的掌握基于随机样本划分数据块的大规模概率密度函数估计基本方法实验内容以一维大规模数据集 为例(N很大),构建核密度估计器其中h>0h>0h>0为窗口宽度(该参数可以自行设定),并绘制f(x)f(x)f(x)的图形。将x1,x2,...,xN{x_1,x_2,...,x_N}x原创 2021-12-22 13:15:51 · 699 阅读 · 0 评论 -
大数据缺省值插补方法(回归填补[stochastic regression imputation],聚类填补,。。)
文章目录回归填补random imputationdeterministic regression imputationstochastic regression imputation聚类填补Autoencoder填补结论回归填补首先导入所需要的包import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import random import missi原创 2021-11-09 09:50:11 · 3795 阅读 · 4 评论 -
大数据(线性/非线性)降维方法(PCA,LDA,MDS,ISOMAP,LLE)
文章目录数据块划分特征分布特征提取PCALDAMDS请添加图片描述IsomapLLE数据块划分对于给定的数据集Magic(19020个样本,10个属性),我们首先将其划分为RSP数据块,然后再分别对他们进行特征提取,比较它们的特征提取结果的概率分布的相似情况不懂RSP数据块的可以看我的这篇我们首先先将数据划分为K个HDFS数据块(K=20)HDFS: [块数: 20 块内元素个数: 950 数据块维度: 11]import osimport pandas as pdimport nump原创 2021-12-01 22:29:29 · 4077 阅读 · 1 评论 -
大数据随机样本划分生成及判定
文章目录实验目的实验内容实验过程验证N对样本分布函数与理论分布函数之间误差的影响高斯分布指数分布均匀分布HDFS和RSP数据块的划分数据块未排序数据块已排序N=50N=100N=1000实验结论实验目的掌握大规模数据集随机样本划分的生成方法和判别方法实验内容(一)生成服从已知分布的N个随机数,验证N对样本分布函数与理论分布函数之间误差的影响,可以在2个分布上进行验证;(二)尝试对N个随机数进行不同的数据划分,在各个数据块上验证样本分布函数与理论分布函数之间的误差,检验哪种数据划分能够保证在数据块上原创 2021-11-24 20:52:25 · 2563 阅读 · 0 评论 -
磁盘损坏预测的数据挖掘
文章目录数据导入与预处理缺失值填补KNN_classifier填补RandomForest填补自编码神经网络填补特征分布可视化归一化PCA降维,样本点分布可视化不同学习器对于数据集的准确率测试总结数据导入与预处理首先是导入本次数据挖掘所需用到的所有包import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom skl原创 2021-10-12 13:37:55 · 482 阅读 · 2 评论 -
pyspark学习笔记
文章目录开局一张图开局一张图详情参考wiki百科后续会慢慢更新原创 2021-07-10 22:02:56 · 135 阅读 · 0 评论 -
Mapreduce 大数据计算框架简介&&MapReduce程序例子
文章目录WordCountWordCountMapper.javaWordCountReducer.javaTestMapReduer.javaAvg scoreAvgScoreMapper.javaAvgScoreReducer.javaAvgScoreJob.javaMAXMinMaxMinMapper.javaMaxMinReducer.javaMaxMinJob.javaAvgTemperatureAvgTemperatureMapper.javaAvgTemperatureReducer.java原创 2021-05-27 17:00:49 · 419 阅读 · 1 评论 -
ubuntu环境下配置hadoop(包括单机部署,伪分布式配置)
前言配置hadoop时看到的教程,十分全面,故转载引用地址转载 2021-04-04 02:12:28 · 148 阅读 · 0 评论