一只土肥圆的猿-CSDN博客

转载 python实现二叉树的遍历以及基本操作

目录内容1：二叉树的遍历内容2：基本操作主要内容：二叉树遍历（先序、中序、后序、宽度优先遍历）的迭代实现和递归实现；二叉树的深度，二叉树到叶子节点的所有路径；首先，先定义二叉树类（python3），代码如下：class TreeNode: def __init__(self, x): self.val = x ...

2020-02-29 16:25:20 628

原创 sigmoid和softmax激活函数的简单理解

使用softmax和sigmoid激活函数来做多类分类和多标签分类在实际应用中，一般将softmax用于多类分类的使用之中，而将sigmoid用于多标签分类之中，对于图像处理而言，网络模型抽取图像特征的结构基本相同，只是根据不同的任务改变全连接层后的输出层。下面介绍如何使用softmax和sigmoid完成对应的分类任务。softmax激活函数应用于多类分类假设神经网络模...

2019-05-16 16:15:39 6905

转载神经网络--超清晰超易懂的一篇文章

（超级好的一篇讲解神经网络的文章，怕丢自己先收起来了☺）神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助你理解深度学习技术。　　本文以一种简单的，循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要求，但是懂一些机器学习基础会更好地帮助理解本文。　　神经网...

2019-05-16 15:14:20 1092

原创朴素贝叶斯算法原理理解

朴素贝叶斯流程如下：1．设 x={a1,a2,…,am}为一个待分类项，而每个 a 为 x 的一个特征属性。2．有类别集合 C={y1,y2,…,yn}。3．计算 P( y1|x) ,P( y2|x),…, P( yn|x)。4．如果 P( yk|x) =max{P( y1|x),P( y2|x),…, P( yn|x)}，则 x∈yk。那么现在的关键就是如何计算第 3 步中的各个条件...

2019-05-09 10:41:04 867

原创 java操作linux shell命令并获得返回值

########自己执行成功的代码###########import com.jcraft.jsch.ChannelExec;import com.jcraft.jsch.JSch;import com.jcraft.jsch.JSchException;import com.jcraft.jsch.Session;import java.io.BufferedReader;im...

2019-04-11 11:31:25 2294

原创 CentOS下shell脚本杀死单个、多个进程

一、脚本杀死一个进程：1、新建一个脚本文件，vim killprocess.sh 写入一下内容：#!/bin/shNAME=$1echo $NAMEID=`ps -ef | grep "$NAME" | grep -v "$0" | grep -v "grep" | awk '{print $2}'`echo $IDecho "-------分割线--------"for i...

2019-01-23 14:25:32 3621 1

转载 [python] 使用Jieba工具中文分词及文本聚类概念

原文地址： https://blog.csdn.net/Eastmount/article/details/50256163 前面讲述了很多关于Python爬取本体Ontology、消息盒InfoBox、虎扑图片等例子，同时讲述了VSM向量空间模型的应用。但是由于InfoBox没有前后文和语义概念，所以效果不是很好，这篇文章主要是爬取百度5A景区摘要信息，再利用Jieba分词工...

2018-12-28 15:59:55 840

用Spark的各项功能，用户不但可以使用DataFrame和Dataset的各种API，学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念，它为用户提供了一个统一的切入点来使用Spark的各项功能，用户不但可以使用DataFrame和Dataset的各种API，学习Spark2的难度也...

2018-12-21 14:48:56 10060

转载 jdk 配置以及配置出错could not open `C:\Program Files\Java\jre7\lib\amd64\jvm.cfg' 解决方案

JDK的安装1.配置信息：①JAVA_HOME指明JDK安装路径，安装时所选择的路径D:\\Java\jdk1.8.0_121，此路径下包括lib，bin，jre等文件夹（此变量最好设置，因为以后运行tomcat，eclipse等都需要依*此变量）； ②Path使得系统可以在任何路径下识别java命令，设为：%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin...

2018-09-26 15:42:20 1446

原创 Java thrift服务器和客户端创建实例

首先环境介绍一下：thrift-0.10.0下载地址：http://archive.apache.org/dist/thrift/<1>创建HelloWorld.thriftnamespace java com.thrift.demoservice HelloWorldService{string sayHello(1:string username)} ...

2018-08-23 17:33:28 354

原创手动开启/关闭HDFS的safemode(安全模式)

在hadoop启动namenode的时候，会启动安全模式（safemode），在该模式下，namenode会等待datanode向它发送块报告（block report），只有接收到的datanode上的块数量（datanodes blocks）和实际的数量（total blocks）接近一致，超过 datanodes blocks / total blocks >= 99.9% ...

2018-08-18 12:14:56 4146

原创 Flume增量采集mysql数据库数据到HDFS、Kafka

软件版本号 jdk1.8、apache-flume-1.6.0-bin、kafka_2.8.0-0.8.0、zookeeper-3.4.5需要向apache-flume-1.6.0-bin/lib 放入两个jar包flume-ng-sql-source-1.3.7.jar -->flume的mysql source 下载地址: https://github.com/keedio/...

2018-07-26 17:20:48 4802 15

原创 Sqoop Mysql导入到HDFS

导入test数据库sqoop表到指定目录参数：--target-dir /directory1例：sqoop import --connect jdbc:mysql://node1:3306/test --username root --table sqoop --m 1 --target-dir /sqoop/1导入表子集参数：--where <condition>1例如：sqoop...

2018-07-13 11:06:24 788

转载 IDEA搭建SpringBoot工程(离线)

SpringBoot的具体介绍可以参看其他网上介绍，这里就不多说了，就这几天的学习，个人理解，简而言之：（1）它是Spring的升级版，Spring容器能做到的事情，它都能做到，而且更简便，从配置形式上来说，SpringBoot完全抛弃了繁琐的XML文件配置方式，而是替代性地用注解方式来实现，虽然本质来说，是差不多的（类似包扫描，注解扫描，类加载之类）。（2）SpringBoot集成的插件更多...

2018-07-12 15:24:56 23623 5

原创 tomcat运行war包，生成的文件中文乱码

两个项目之前在ide（环境都是utf8）当中互发请求的时候，验签都是通过的，但是打成war包运行后，就会报验签不通过，各种检查后，那就只有编码问题，收到的数据因为编码问题变掉了，指定下jvm的编码1、在tomcat目录下的conf文件夹下，打开server.xml在<Connector port="8080" ... > 中添加 URIEncoding="UTF-8" 。 2、在t...

2018-07-06 15:05:56 3424

原创 kafka 0.10发送、接收大消息解决办法

配置三个地方： Broker: message.max.bytes and replica.fetch.max.bytes Producer: max.request.size Consumer: max.partition.fetch.bytes注意： message.max.bytes必须小于等于replica.fetch.max.bytes...

2018-07-02 15:15:21 1906

原创 kafka监控工具KafkaOffsetMnitor配置、使用

先下载编译好的KafkaOffsetMonitor-assembly-0.4.1-SNAPSHOT.jar地址：点击进入将此jar包上传服务器编写脚本 kafkaMonitor_start.sh：（脚本要和jar包放在同一个目录下）java -cp KafkaOffsetMonitor-assembly-0.4.1-SNAPSHOT.jar \ com.quantifind.kafka....

2018-05-22 10:36:37 418

转载 Kafka消费者Heartbeat分析

消费者会定期向GroupCoordinator发送HeartbeatRequest来确定彼此在线，也就是说告诉GroupCoordinator我还活着，或者也判断GrooupCoordinator是否还活着 HeartbeatRequest的组成：它是由groupId，generationId，memberId.HeartbeatResponse组成：它只有一个errorCodeHeartbea...

2018-05-18 14:24:29 5080

转载 RPC服务和HTTP服务对比

很长时间以来都没有怎么好好搞清楚RPC（即Remote Procedure Call，远程过程调用）和HTTP调用的区别，不都是写一个服务然后在客户端调用么？这里请允许我迷之一笑~Naive！本文简单地介绍一下两种形式的C/S架构，先说一下他们最本质的区别，就是RPC主要是基于TCP/IP协议的，而HTTP服务主要是基于HTTP协议的，我们都知道HTTP协议是在传输层协议TCP之上的，所以效率来看...

2018-05-11 09:42:23 788

转载云计算，大数据，人工智能三者有何关系？

原创：http://cloud.idcquan.com/yjs/115806.shtml云计算最初的目标是对资源的管理，管理的主要是计算资源，网络资源，存储资源三个方面。想象你有一大堆的服务器，交换机，存储设备，放在你的机房里面，你最想做的事情就是把这些东西统一的管理起来，最好能达到当别人向你请求分配资源的时候（例如1核1G内存，10G硬盘，1M带宽的机器），能够达到想什么时候要就能什么时候要，想...

2018-05-10 15:22:09 506

原创集群SSH免密登录

这里以三台服务器为例：master、slave1、slave2给3个机器生成秘钥文件以master为例，执行命令，生成空字符串的秘钥(后面要使用公钥)，命令是：1. [root@master .ssh]# ssh-keygen -t rsa -P '' 2. ls /root/.ssh/使用同样的方法为slave1和slave2生成秘钥(命令完全相同，不用做如何修改)：1. [r...

2018-05-10 14:00:04 3803

原创 Java Web提交任务到Spark Spark通过Java Web提交任务

相关软件版本：Spark1.4.1 ，Hadoop2.6，Scala2.10.5 , MyEclipse2014，intelliJ IDEA14，JDK1.8，Tomcat7机器：windows7 （包含JDK1.8，MyEclipse2014，IntelliJ IDEA14，TOmcat7）；centos6.6虚拟机（Hadoop伪分布式集群，Spark standAlone集群，JDK1.8）...

2018-05-09 09:42:41 4223

原创 Flume中的HDFS Sink配置参数说明

Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。typehdfspath写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值：FlumeData写入hdfs的文件名前缀，可以使用flume提供的日期及%{host...

2018-04-26 16:33:55 348

原创 Flume数据采集常用案例

flume的案例　　　　1)案例1：Avro　　　　Avro可以发送一个给定的文件给Flume，Avro 源使用AVRO RPC机制。　　　　　　a)创建agent配置文件?1234567891011121314151617181920212223root@m1:/home/hadoop#vi /home/hadoop/flume-1.5.0-bin/conf/avro.conf a1.sour...

2018-04-26 15:59:53 1814

原创 Ambari安装----Confirm Hosts Registering with the server failed解决办法

安装Ambari到Confirm Hosts这步过不去了！点击红色“Failed”，查看详细错误：[html] view plain copy========================== Creating target directory... ========================== Command start time 2016-11-09 16:24:42 ...

2018-04-18 17:04:06 8718 1

原创 CentOS6、7 局域网离线安装Ambari

（自己安装多遍，踩过各种坑，终于趟顺了，下面绝对完整版）（安装6、7的步骤一样，只是相关执行命令6、7会有差别）1.1 Ambari Ambari的作用来说，就是创建、管理、监视 Hadoop的集群。Ambari自身也是一个分布式架构的软件，主要由两部分组成：Ambari Server和 Ambari Agent。简单来说，用户通过Ambari Server通知 Ambari Agen...

2018-04-18 15:50:28 2300

原创常用的正则表达式

一、校验数字的表达式数字：^[0-9]*$n位的数字：^\d{n}$至少n位的数字：^\d{n,}$m-n位的数字：^\d{m,n}$零和非零开头的数字：^(0|[1-9][0-9]*)$非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(\.[0-9]{1,2})?$带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})$正数、负数、和小数：^(\-|\+)?\d+(\...

2018-04-04 09:55:27 267

原创 Windows下Python3安装Scrapy

安装前提：Window已经安装好了Python3，我电脑里安装的是Python3.6，将python_home和python目录下的Scripts配置到环境变量中，安装好pip。1、安装pywin32pip install pywin322、安装lxmlpip install lxml (我的python暗黄目录lib下面已经有了，提示不用安装)3、安装Twisted去http://www.lfd...

2018-04-03 11:35:46 207

原创查看Linux系统版本信息

一、查看Linux内核版本命令（两种方法）：1、cat /proc/version[root@S-CentOS home]# cat /proc/versionLinux version 2.6.32-431.el6.x86_64 (mockbuild@c6b8.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (...

2018-03-30 17:46:28 244

原创 LINUX执行mysql报错：-bash: mysql: command not found

在linux命令行执行：]# ln -fs "mysql的绝对路径"/bin/mysql /usr/bin====我的mysql的绝对路径/usr/local/mysql-5.7.16/========eg:ln -fs /usr/local/mysql-5.7.16/bin/mysql /usr/bin====这样在任何的路径下都可以执行mysql启动命令：]# mysql -uroo...

2018-03-30 15:39:35 2870

原创如何将LINUX本地的文件内容写入到远程服务器的文件中

服务器之间最好ssh免密码登录，如果不是免密码登录，每次写入都要手敲密码。------------将本地的test.log文件的内容写入到远程服务器test1.log文件中。脚本内容：#!bin/bashssh root@192.168.30.1 'cat /opt/test.log >> /opt/test1.log'-------------将远程服务器test1.log文件中的内...

2018-03-30 14:53:19 9399 1

转载 JVM架构和GC垃圾回收机制详解

JVM被分为三个主要的子系统：1. 类加载器子系统2. 运行时数据区3. 执行引擎1. 类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时（不是编译时）首次引用一个类时，它加载、链接并初始化该类文件。1.1 加载类由此组件加载。启动类加载器 (BootStrap class Loader)、扩展类加载器(Extension class Loader)和应用程序类加载器...

2018-03-26 14:40:14 455

转载内存溢出的几种原因和解决办法

对于JVM的内存写过的文章已经有点多了，而且有点烂了，不过说那么多大多数在解决OOM的情况，于此，本文就只阐述这个内容，携带一些分析和理解和部分扩展内容，也就是JVM宕机中的一些问题，OK，下面说下OOM的常见情况：第一类内存溢出，也是大家认为最多，第一反应认为是的内存溢出，就是堆栈溢出：那什么样的情况就是堆栈溢出呢？当你看到下面的关键字的时候它就是堆栈溢出了：java.lang.OutOfMem...

2018-03-19 16:48:32 87273 6

原创 Kafka监控工具KafkaOffsetMonitor配置及使用

KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具，其配置和使用特别的方便。源项目Github地址为：https://github.com/quantifind/KafkaOffsetMonitor。　　一、KafkaOffsetMonitor的使用　　因为完全没有安装配置的过程，所以直接从KafkaOffsetMonitor...

2018-03-16 14:16:03 1978

原创 Flume采集数据到HDFS中，开头信息有乱码

Flume采集数据，在生成的HDFS文件中，总是有“SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable??H謺NSA???y”信息，在Flume文档中介绍，hdfs.fileType默认为SequenceFile，将其改为DataStream就可以按照采集的文件原样输入到hdfs，加一行a1.sinks....

2018-03-15 10:45:25 1455

原创 Flume基础学习笔记

一、什么是flumeFlume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Ag...

2018-03-14 17:20:06 376

原创 Flume配置参数说明

channelType:hdfspath:写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix：默认值：FlumeData 写入hdfs的文件名前缀，可以使用flume提供的日期及%{host}表达式。fileSuffix：写入hdfs的文件名后缀，比如：.lzo .l...

2018-03-14 17:18:49 2661

原创大数据架构:Kafka

Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统，利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费KAFKA：分布式的发布-订阅消息系统，主要用于处理活跃的数据特点：高吞吐量：每秒百万级别的生产消费----生产消费持久性：由完善的消息存储机制，确保数据...

2018-03-06 14:53:01 4130

原创解压缩报错tar: Error is not recoverable: exiting now

解压缩报错tar: Error is not recoverable: exiting now[root@Gris-11140 FMIS2600bak]# tar -zxvf /home/oradata/FMIS2600DMP.tar.gzgzip: stdin: not in gzip formattar: Child returned status 1tar:

2018-01-29 10:50:10 42401 4

原创 Hive --- 日期函数

1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳（从1970-01-0100:00:00 UTC到指定时间的秒数）到当前时区的时间格式举例：hive> select from_unixtime(1323308943,'

2017-11-28 14:52:40 443 1

空空如也

空空如也