BigBrother@@U-CSDN博客

原创简易深度学习（1）深入分析神经元及多层感知机

本文，带大家深入分析深度学习中的神经元和多层感知机器，讨论了神经元结构，分层结构，参数，正向传播和反向传播，让大家一文弄懂这些知识点，理解细节。

2024-06-27 20:55:40 754

原创简易人工智能入门（2）

sigmoid：输入范围负无穷到正无穷，进入激活函数，输出为0-1的值ReLU：就像一个筛选机制一样，选出大于0的东西。输入正负无穷，输出0到正无穷。ReLU 也叫max（0，x）

2024-06-26 11:25:00 351

关于为什么是减号，这得得说明一下，下面的图θ1是大于θ0的，θ0要变为θ1就得加一个正数。θ处的导数为负（就像红色三角一样），所以是减去导数，减去一个负数，就变为正数了。左边图形每一个红线的w和b是固定的，能不能让w和b是变量，得到和y的差距的损失的关系，这样就变为了右图，左边每一条红线在右侧都是一个点。这样可以得出某个红色的线是4条种最优的，但不是最好的，因为仅仅是在这四个可能性种最好的，可能还存在更好的。先从导数的定义说起，导数是y的变换和x变换的比，也就是瞬时的变化比。

2024-06-21 22:04:25 965

原创 hive关于一个表的操作

1，创建表格create table stu(name string,hobby array<string>,scores map<string,double>)row format delimitedfields terminated by ','collection items terminated by '-'MAP KEYS TERMINATED BY ':';2,导入数据数据：zs,drink-eat,english:90-math:66ls,drink

2021-12-08 22:15:02 1639

原创 bigbrother的补充单节点hdfs搭建好后搭建mapredce

bigbrother的补充单节点hdfs搭建好后搭建mapredce1、环境文件的配置（1）hadoop已经配置了一个环境变量文件hadoop-env.sh在里面修改了javahome（2）再把map，yarn的环境文件配置一下修改map的env.sh文件默认如图，记得把注释删除掉改为下图（3）修改yarn的环境文件类似的修改如下：2、配置map的配置文件首先先把模板copy一份变为可以生效的xml使用的框架为yarn 另外可以选择的还有classic和local修改etc/ha

2021-11-04 17:36:51 993

原创 bigbrother的python第二天 Numpy

一，anaconda的使用1 在anaconda中使用环境创建两个python使用 conda info –envs 查看现在的环境 * 表示现在启用的版本Activate 环境名称 – - 启用什么环境2，Conda create -n py27 python=2.7 anaconda 安装一个2.7的python环境二 Numpy标量：普通的量向量、矢量：矩阵1，三种创建矢量的方式（1）使用listNp.array([])（2）使用random随机生成正态分布0-1的数下

2021-01-10 23:30:44 181

原创 bigbrother的python第一天复习基础知识

一，关于编写1， python是不同层级进行缩进的2，单行注释使用# 多行使用‘’‘ ’‘’二，关于数据类型Tuple是（），不可变的List是[] 是可变的字典dict 是{}，是k v结构，所有的k是这个dict_keys 可以使用list方法转化为listDict1.keys是获取dict1中所有的key{‘k1’：“v1”，“k2”：“v2”}三，条件判断多条件判断1，使用and 和oIf a>10 or a<02，使用all和any满足所有

2021-01-09 12:03:58 230 2

原创 Hadoop自带jar运行wordcount和PI

wordcount 数单词程序1，切换到/opt/Hadoop-2.6.5下Cd /opt/Hadoop-2.6.52，使用jarhadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input.txt /output/对input.txt 里的文件进行统计input.txt的内容为3,查看结果Hdfs dfs -ls /output/一个success表示成功，一个pa

2020-11-28 15:36:19 2430

原创 eclipse代码操作hdfs 读写文件 API

1，从hdfs中读取某一个文件的内容下面的代码时候必须保证hdfs中有/input.txt文件不然读取不到会有异常2，使用FS对象下载文件到本地下载hdfs根目录的input.txt到本地硬盘D盘的根目录3，使用FS对象上传文件到HDFS上传本地的firefox到HDFS上4，查看hadoop的配置文件程序的执行结果为：可以看出虽然没有进行配置，但是有一些设置，配置文件的读取步骤是（1）读取jar中的配置》（2）读取xml文件》（3）读取代码中的配置...

2020-11-16 08:32:26 896

原创 eclipse代码操作hdfs创建目录 API

当我们用eclipse能够连接上hdfs后，总感觉操作不过瘾，我们可以使用代码操作hdfs。一，准备！下面为eclipse所需要的jar包链接：https://pan.baidu.com/s/1l93-A6iWZJU8osUbMEfx8A 提取码：data二，开干！1，创建用户自定义的libraries包名字为hadoop-jars2 给hadoop-jars中添加jar包选中lib中的120+个jar包3 新建java项目为TestHaoop，右键buildpath在项目中

2020-11-13 18:54:06 1200

原创 eclipse连接HDFS

hdfs中有各种角色包含：namenode ， datanode，secondarynamenode，clientClient角色连接到namenode节点，有两个条件，（1），安装Hadoop程序；（2），配置core-site.xml指定namenode的端口的地址或者通过工具能够找到namenode<property> <name>fs.defaultFS</name> <value>hdfs://node1

2020-11-13 18:20:53 2262

原创 hadoop各个端口号的区别

8020端口：/opt/hadoop-2.6.5/etc/hadoop/core-site.xml下的配置：8020是默认rpc的端口号，一般用于IDE远程使用Hadoop集群，是程序和程序之间的连接。<property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>node01:8020</value></property>9000端口：是H

2020-11-12 10:58:42 3383

原创 hadoop伪分布式上搭建hive

搭建hadoop一台，hive使用的是MySQL首先搭建一台hadoop参照以前的文章下面是hive的流程1，复制数据包hive和mysql连接jar包到Linux中2，安装hive到opt下tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/3，重新命名hive程序4，把hive添加到环境变量vim /etc/profileSource 一下/etc/profile测试一下hive命令是可以使用tab键按出来5，cd 到hiv

2020-11-03 22:26:32 1040

原创 4台机器完全分布式安装hadoop，bigbrother的补充

完全分布式示意图Namnode的配置克隆机器1，克隆，改名2，该udev文件 /etc/udev/rules.d/70-…-net… 把最后一行的eth1改为eth0，把前面几行都注释掉start_udev 开启改网卡/etc/sysconfig/network-scripts/ifcfg-eth0IPADDR=192.168.x.100把uuid和MAC地址注释掉或者删除Service network restart3，改名/etc/sysconfig/network把里

2020-10-24 22:48:14 1585

原创计算机网络(2)

网络概念网络是由节点和节点之间的链路组成的节点：计算机，路由器，交换机，网络（特殊）链路的表现形式：双绞线，光纤

2019-10-29 15:48:21 115

原创计算机网络(1)

2019-10-09 17:43:46 134

原创 BigBrother的大数据之旅Day 18 zookeeper

思维导图zk集群的搭建1.3节点 java 安装2.所有集群节点创建目录: mkdir opt/sxt3.zk压缩包解压在其他路径下:：# tar xf zookeeper-3.4.6.tar.gz -C /opt/sxt/4.进入conf目录，拷贝zoo_sample.cfg zoo.cfg 并配置dataDir，集群节点。5.单节点配置环境变量、并分发 ZOOKEEPER_P...

2019-09-01 16:28:59 126

原创 BigBrother的大数据之旅Day 17 redis(2)

Redis(2)1 redis持久化持久化:将数据从掉电易失的内存存放到能够永久存储的设备上redis持久化两种 :RDB (redis DB)镜像文件，dump.rdbAOF（append only file）日志文件，默认关闭恢复数据如果需要恢复数据，只需将备份文件 (dump.rdb) 移动到 redis 安装目录并启动服务即可。获取 redis 目录可以使用 CONFI...

2019-08-20 21:27:49 113

原创 BigBrother的大数据之旅Day 16 redis(1)

BigBrother的大数据之旅Day 16 Redis红色是啥？（red is ？O(∩_∩)O哈哈~）1 概念Redis 基于内存并支持持久化，高性能key-value的nosql数据库（1）单线程，省去了上下文切换带来的消耗，效率高（2）用途：缓存、数据库（需要持久化）、中间件（需要持久化）（3）支持类型：有字符串（strings），散列（hashes），列表（lists）...

2019-08-19 22:30:10 161

原创 BigBrother的大数据之旅Day 15 sqoop

sqooppart one1 数据迁移工具2 通常用于hdfs和关系型数据库之间3 实质是mapreduce4 数据的导入导出是从hdfs的角度来说的,谁让sqoop是apache的东西呢part two1 解压 sqoop软件2 查看命令3 导入数据import--connectjdbc:mysql://192.168.239.1:3306/test--driverc...

2019-08-17 11:31:03 115

原创 BigBrother的大数据之旅Day 14 某项目流程

某平台日志项目流程架构分析1 埋点程序把数据以url的方式提交给nginx服务器2 nginx服务器把日志信息(文本文件)保存到本地硬盘3 flume,安装中nginx上通过主动方式读取日志信息,源为本地磁盘,目的地为hdfs4 在ide上运行数据清洗程序把,数据提交到hbase数据库5 使用mr程序对hbase的数据进行处理,存放到mysql中6 使用hive创建外部表,关联到...

2019-08-16 20:00:27 284

原创 BigBrother的大数据之旅Day 13 hbase(2)

HBase（2）详述人员角色表的设计思路以及实现思路:两个部分的信息分别保存到两张表中,因为hbase是列存储的表,一般存储非关系数据,就像记笔记一样,把关键点写上.第一张表: 个人信息表rowkey为编号, 列族1为个人信息(性别,名字等),列族2为其拥有的角色(包含优先级)第二张表: 角色信息表rowkey: 角色id,列族1 角色信息(主要是名称),列族2拥有的人员详述电话案...

2019-08-16 16:13:45 255

原创 BigBrother的大数据之旅Day 12 Hbase(1)

HBASE (Hadoop Database)是个高可用,高性能, 面向列可伸缩、实时读写的分布式数据库Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务1 hbse的表结构Row KeyTime StampCF1CF2CF311248112t6CF2:...

2019-08-16 16:09:56 176

原创 BigBrother的大数据之旅Day 11 hive(2)

HIVE参数命名空间读写权限含义hiveconf可读写hive-site.xml当中的各配置变量例：hive --hiveconf hive.cli.print.header=true 只当前会话有效system可读写系统变量，包含JVM运行参数等例：set system:user.name=root 当前会话有效在命令行中hive&...

2019-08-12 20:58:16 235

原创 BigBrother的大数据之旅Day 10 hive(1)

HIVE1 一些概念HIve存在的目的:非编程人员使用mapreduce进行分析HIVE:是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。HIVE 的driver(核心)包含: 解释器: (解析器) 解释输入的hql语句编译器: hql转化为语法树>查询块...

2019-08-12 20:53:25 202

原创 Crontab每五分钟向ntp服务器矫正时间

创建三个文件crontest.cron为定时文件timelog.txt为保存日志的文件time.sh为访问ntp服务器的脚本1 创建访问ntp服务器的脚本#! /bin/bash/usr/sbin/ntpdate -u cn.ntp.org.cn &> /temp/timelog.txtecho 'time is update!' >> /temp/tim...

2019-08-07 18:47:32 837

原创 BigBroteher的大数据之旅 Day 9 yarn原理图 && wordcount

Yarn1 模块介绍YARN：负责资源管理和调度MRAppMaster：负责任务切分、任务调度、任务监控和容错等MapTask/ReduceTask：任务驱动引擎，与MRv1一致每个MapRduce作业对应一个MRAppMasterMRAppMaster任务调度YARN将资源分配给MRAppMasterMRAppMaster进一步将资源分配给内部的任务MRAppMaster容错...

2019-07-30 20:48:52 485

原创 BigBroteher的大数据之旅 Day 8 mapreduce && yarn

MapReduce 计算原理图mapreduce 简单示例注意该图中1 ,sort排序后,每个map中,两个kv分别复制到不同的reducer2 mapreduce的输入和输出为hdfs,中间是在本地硬盘mapreduce 示例图二YARN的搭建yarn原理图本搭建是在HA的基础上 hadoop版本为2.61 修改etc/hadoop/mapred-site.xml:使用...

2019-07-28 22:39:47 222

原创 # BigBrother的大数据之旅 Day 6 HDFS原理

学习目标：hadoop：包含分布式文件系统和分布式计算的一个框架。 HDFS，mapreduce掌握HDFS的架构：三种节点：NN,SNN,DN。每个节点的主要作用。不可替代存放海量的数据。数据 --》----》文件—》存放HDFS—》数据文件（元数据，内容数据）—》元数据在NN，内容数据形成block在DN。非常兼容各种分布式计算节点的作业： NN: 1、接受客户...

2019-07-25 08:45:04 283

原创 BigBrother的大数据之旅 Day 5 负载均衡

1 tengine把tengine加入到系统服务中配置Nginx为系统服务，以方便管理1、在/etc/rc.d/init.d/目录中建立文本文件nginx2、在文件中粘贴下面的内容：#!/bin/sh## nginx - this script starts and stops the nginx daemon## chkconfig: - 85 15 # descript...

2019-07-23 20:12:51 273

原创 BigBrother的大数据之旅 Day 4 Linux(4)

学习目标：掌握shell的基本语法变量本地变量：作用在当前shellscript中环境变量：作用在当前的shell（bash）及其子shell（bash）局部变量特殊变量：KaTeX parse error: Expected 'EOF', got '#' at position 1: #̲,?,位置变量：$1,$2,$3…条件判断

2019-07-21 20:22:45 181

原创 BigBrother的大数据之旅 Day 3 Linux(3)

1 安装软件1.1 编译安装1 编译安装步骤:(1) ./config 生成依赖关系, ./configure --prefix=/usr/nginx-1.8(指定一个不存在的目录)(2) make 编译,必须在makefile的目录,实质是执行makefile,会生成一个objs目录(3) install 是判断目录是否存在,如果存在cp文件,不存在创建目录,cp文件2 使用编译安装...

2019-07-19 19:37:29 298

原创 BigBrother的大数据之旅Day 2 Linux(2)

BigBrother的大数据之旅 Day 21vi和vimvim是vi的升级版,加入了高亮更适合编程，是liunx中的文本编辑器1.1vim + 文件: 打开文件,光标移动到末1.2 vim +数字文件: 打开文件,光标移动到数字行1.3 vim + /p 文件:打开文件,并查找出p1.4 命令模式(编辑模式):键盘中输入的字符被当成命令输入模式:键盘中输入的字符被当做内容末行模...

2019-07-18 20:26:14 563

原创 BigBrother的大数据之旅 Day 1 Linux(1)

BigBroteher的大数据之旅 Day 1Today is a new day!一课堂小知识1 scala是大数据的主流编程语言Scala是一种强大的JVM语言，混合了函数式和面向对象编程范式2 大数据的本质为:分布式计算3 大数据中常见的数据类型为非结构化和半结构化数据3.1 结构化数据定义：业界指关系模型数据，即以关系数据库表形式管理的数据简析：虽然专业角度上看，结...

2019-07-17 20:40:49 607

共同进步