ah4526-CSDN博客

原创大数据Hadoop之Mapreduce_学习笔记

1.MapReduce1.7 MapReduce编程规范用户编写的程序分成三个部分：Mapper、Reducer和Driver。编写程序Mapper类package com.atguigu.mapreduce;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import o...

2020-03-15 22:59:54 258

原创 HDFS_学习笔记

1.HDFS产生的背景及定义HDFS的优点高容错性适合处理大数据可构建在廉价的机器上HDFS的缺点不适合低时延数据访问无法高效的对大量小文件进行存储不支持并发写入、文件随机修改HDFS组成架构NameNodeDataNodeClientSecondary NameNodeHDFS文件块大小2.HDFS的Shell...

2020-03-14 22:11:04 346

原创 hadoop编译源码_学习笔记

Hadoop编译源码1.前期准备工作CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意：采用root角色编译，减少文件夹权限出现问题jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)（1）hadoop-2.7.2-src.tar.gz（2）jdk-8u144-linux-x64.tar.gz...

2020-03-14 16:44:46 251

原创 hadoop架构概述与运行模式_学习笔记

2.5 Hadoop组成2.5.1 HDFSNameNodeDataNodeSecondary NameNode2.5.2 YARN架构概述ResourceManagerNodeManagerApplicationMasterContainer2.5.3 MapReduce架构概述MapReduce将计算过程分为两个阶段：Map和Reduce，如图2-25所示...

2020-03-14 16:38:22 505

监督学习监督学习中的数据集是有标签的，就是说对于给出的样本我们是知道答案的。如果机器学习的目标是通过建模样本的特征x和标签y之间的关系：f(x,theta)或f(y|x,theta)，并且训练集中的每个样本中都有标签，成为监督学习。根据标签类型的不同，又可以分为**分类问题和回归问题。**前者是预测某样东西所属的类别，比如给定一个人的身高、年龄、体重等信息，然后判断性别、是否健康等；后者则是预测...

2020-03-03 22:36:05 750

转载【TensorFlow】使用RNN预测时间序列

import csvimport numpy as npimport matplotlib.pyplot as plt def load_series(filename, series_idx=1): try: with open(filename) as csvfile: csvreader = csv.reader(csvfile)...

2020-03-03 17:06:30 443

原创小波分解

一维离散小波的单层分解clear all;close all;load noissin.mat;[ca,cd]=dwt(noissin,'sym4');%%ca是近似系数（低频部分），cd是细节系数（高频部分），采用的小波是sym4figure;subplot(311);plot(noissin);title('原始信号');subplot(312);plot(ca);ti...

2020-03-03 12:50:05 7841

转载普林斯顿·算法·PART I：HASH TABLES

1.哈希查询算法由两部分组成哈希函数将要查询的键(key)转换成数组的角标。面对的问题：多个不同的键(key)经过hash之后转换成相同数组角标有两种方案解决冲突：各自的链(separate chaining)、直线的探测(linear probing)2.单独的链两个或多个键经过哈希函数得到相同的角标值。将这些碰撞的项链接到单独的链表中，这种方法称之为单独的链（separate cha...

2020-03-02 17:15:38 252

转载普林斯顿·算法·PART I：Balanced search tree

平衡搜索树2-3 search trees于是先来了解下 2-3 查找树，它可以保证树的平衡性，维护树高在 lgN 级别。这里的 2，3 指的是孩子的数目search查找和二叉查找树一样，虽然现在有的点有两个键，但是也没有什么关系。insert插入操作比较关键，解释了为什么可以保证树的平衡性，下面是各种情况的示意：插入 2-node 时，直接插入把这个节点变成 3-node 即...

2020-03-02 12:21:57 371

原创普林斯顿·算法·PART I：Binary search

1.二叉搜索2.二叉搜索树2.1 插入2.计算层数3. 子树计数4.删除最小值5. 希巴德删除

2020-03-01 18:24:08 198

原创普林斯顿·算法·PART I：PRIORITY QUEUES

1.Priority queue以某种方式排序，总是处理最优的。2.Binary heapsroot 为最大值2.1 回溯—>插入元素回溯：插入元素：2.2下沉——>删除元素下沉：删除元素：整体代码与性能：3.HeapSort堆排序4.Event-driven simulation目标：根据弹性膨胀原理，模拟N个移动的例子运动状态变化。模...

2020-03-01 13:16:02 430

原创普林斯顿·算法·PART I: 排序算法总结

1.排序算法代码实现1.选择排序2.插入排序3.希尔排序4.混洗排序5.快速排序2.排序算法稳定性

2020-02-29 16:04:53 187

转载普林斯顿·算法·PART I：MergeSort

Mergesort1.Mergesort基本思想：将数组一分为二（Divide array into two halves）对每部分进行递归式地排序（Recursively sort each half）合并两个部分（Merge two halves）归并排序体现的是一种分治思想实现public class Merge{ private static void mer...

2020-02-29 15:05:21 358

转载普林斯顿·算法·PART I：Stacks and Queues

1.stacks1.利用数组表示栈2.利用链表表示栈2.resizing arrays3.queues3.1利用链表表示队列4.generics泛型4.1 使用链表实现的栈泛化4.2使用数组实现的栈泛化3.iteratorsInterview Questions: Stacks and Queues利用两个栈来实现队列，具体方法为：入队等同于栈A进栈；出...

2020-02-28 19:59:09 349

转载普林斯顿·算法·PART I：第一章Union-Find

动态联通性问题描述：有N个元素，开始时我们让每一个元素肚子构成一个集合。然后按一定的顺序将属于同一组中的元素合并，构成新的集合。其间要反复查询某个元素在哪个集合中。如下所示：（1）Quick-Find声明一个长度为N的数组id，数组中元素的值代表它所属组的编号。将数组中的元素初始化为每个元素的索引值，这样就表示开始时每个元素各自构成一个独立的集合。每次union(i,j)的时候就将所有组编...

2020-02-27 22:23:11 474

原创用python进行数据清理（上）

数据清理是从数据集、表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程，指的是识别数据中不完整、不正确、不准确或不相关的部分，然后进行替换、修改或删除不干净或者粗糙的数据。Data Cleaning in Python: the Ultimate Guide (2020)为了使它更简单，我们用Python创建了这个新的完整的分步指南。你将学习如何寻找和清洁的技术:数据缺失数据不...

2020-02-25 23:37:15 1370

原创面向大数据框架的测评

以hadoop为代表的各种大数据框架不断涌现，这些数据处理框架方便了大数据应用的编写，但是由于数据来源的多样性、数据形式的多元化，使得数据质量存在较大的差异，不正确或者不一致的数据可能严重影响分析效果。1.概述大数据处理流程一般如下：使用相关工具对分布广泛的非结构化的数据源进行抽取和集成，采用合适的标准对结果进行统一存储，利用数据分析的相关技术分析存储的数据，从所存储的数据中选择有用的内容...

2020-02-25 20:46:19 704

原创数据结构与算法(python)笔记整理

1.引入概念1.1 第一次尝试import timestart_time=time.time()for a in range(0,1001): for b in range(0,1001): for c in range(0,1001): if a**2+b**2==c**2 and a+b+c==1000: print(...

2020-02-24 23:47:17 436

转载基于keras的LSTM多变量时间序列预测

利用深度学习库keras搭建LSTM模型来处理多个变量的时间序列预测问题1.如何将原始数据转化为适合处理时序预测问题的数据格式2.如何准备数据并搭建LSTM来处理时序预测问题3.如何利用模型预测1.空气污染预测数据集包括行数、日期（年；月；日；小时）、PM2.5浓度、露点、温度、大气压、风向、风速、累计小时雪景、累计小时鱼量2.数据处理粗略的观察数据集，需要删除最开始的24小时的PM...

2020-02-24 17:14:42 1253 1

原创大数据测试

一、绪论：大数据是大容量、高速率、多形态的信息资产，且需要成本效益、信息处理来增加洞察力和决策创新形式。大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。大数据分析框架测试、算法质量测试、性能测试、大数据安全和隐私软件测试的经典定义：为发现软件错误，而运行软件的活动。基本思路：根据软件需求规格说明书，执行软件操作和输入数据，依据软件实际输出结果和预期输出结果来评判软件...

2020-02-24 17:12:10 1855

原创集体智慧编程_第十章寻找独立特征

除了第三章的聚类算法属于非监督技术之外，其余大部分章节都主要集中在监督分类器上。本章将研究如何在数据集并未明确表示结果的前提下，从中提取重要的潜在特征来。鸡尾酒宴会。搜索一组新闻选择新闻来源选择的订阅源中的新闻内容存在重叠import feedparserimport refeedlist=['http://...','http://...']下载新闻来源接受一个大型的数据矩...

2020-02-24 17:04:04 321

原创集体智慧编程_第九章核方法与SVM

为约会网站的用户寻找配对；数据包含数值型、名词性和大量的非线性关系。class matchrow： def __init__(self,row,allnum=False): if allnum: self.data=[float(row[i]) for i in range(len(row)-1) else: s...

2020-02-24 17:03:30 272 1

原创集体智慧编程_第七章决策树建模

预测注册用户针对某个web站点的用户行为及其最终购买决策。最后一栏的服务类型是我们需要预测的内容。来源网站、位置、是否阅读过FAQ、浏览网页数、选择服务类型。将数据文件加载进来：my_data=[line.split('\t') for line in file('decision_tree.txt')]引入决策树class decisionnode: def __init_...

2020-02-24 17:02:50 207

原创集体智慧编程_第六章文档过滤

文档和单词将单词作为特征。将任何非字母类字符为分隔符对文本进行划分，将文本拆分为一个个单词，并转化成小写形式。import reimport mathdef getwords(doc): splitter.re.compile('\\W*') words=[s.lower() for s in splitter.split(doc) if len(s)>2 and l...

2020-02-24 17:02:08 231

原创集体智慧编程-第五章优化

组团旅游import timeimport randomimport mathpeople=[('seymour','BOS'), ('FRANNY','DAL'), ('ZOOEY','CAK'), ('WALT','MIA'), ('buddy','ORD'), ('LES','OMA')]destina...

2020-02-24 17:01:27 1138

原创集体智慧编程_第三章发现群组

本章对上一章中的思想加以扩展，并引入数据聚类的概念，这是一种用以寻找紧密相关的事、人或观点，并将其可视化的方法。监督学习和无监督学习监督学习法：利用样本的输入和期望输出来学习如何预测的技术。包括神经网络、决策树、向量支持机，以及贝叶斯过滤。无监督学习算法不是带有正确答案进行训练，目的是在一组数据中找寻某种结构，而这些数据本身不是我们所需要的答案。聚类算法的目标是采集数据，然后从中找出不同...

2020-02-24 17:00:38 251

原创集体智慧编程_第二章提供推荐

协作型推荐一个协作型过滤算法是对一大群人进行搜索，并从中找出与我们品味相近的小群人。算法会对这些人所偏爱的其他内容进行考察，并将他们组合起来构造出一个经过排名的推荐列表。搜集偏好我们通过采用嵌套的字典的方法来表达不同人及其偏好的方法。我们建立一个数据集,命名为recommendations.py 采用1到5的评分，来体现包括本人在内的每位影评者对某给定影片的喜爱程度。from recom...

2020-02-24 16:58:52 306

数据结构与算法（python）.pdf

数据结构与算法python 自己整理的笔记。

2020-02-24

非刚性人脸检测算法

《MasteringOpenCV系列》关于研究“非刚性人脸跟踪”(non-rigid face tracking)。非刚性人脸跟踪，它是对每帧视频图像中人脸特征稠密数据集合的估计。非刚性人脸跟踪侧重于不同脸部表情或不同人物的脸部特征相对距离的变化。它和一般的人脸检测与跟踪算法不同，它不仅仅是找到每一帧中人脸的位置，它还要找到人脸五官的组态关系。【可以作用表情识别】本次的非刚性人脸跟踪系统是基于数据驱动的，因此该系统的每个模块都涉及两个过程：trianing和testing。“训练”完成了从样本数据构建模块(获得一些关键参数)，“测试”利用这些模块在新的未知数据集上检验效果。

2018-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_37356854的博客