- 博客(47)
- 收藏
- 关注
转载 python实现二叉树的遍历以及基本操作
目录内容1:二叉树的遍历 内容2:基本操作主要内容: 二叉树遍历(先序、中序、后序、宽度优先遍历)的迭代实现和递归实现; 二叉树的深度,二叉树到叶子节点的所有路径; 首先,先定义二叉树类(python3),代码如下:class TreeNode: def __init__(self, x): self.val = x ...
2020-02-29 16:25:20 628
原创 sigmoid和softmax激活函数的简单理解
使用softmax和sigmoid激活函数来做多类分类和多标签分类 在实际应用中,一般将softmax用于多类分类的使用之中,而将sigmoid用于多标签分类之中,对于图像处理而言,网络模型抽取图像特征的结构基本相同,只是根据不同的任务改变全连接层后的输出层。下面介绍如何使用softmax和sigmoid完成对应的分类任务。softmax激活函数应用于多类分类 假设神经网络模...
2019-05-16 16:15:39 6905
转载 神经网络--超清晰超易懂的一篇文章
(超级好的一篇讲解神经网络的文章,怕丢自己先收起来了☺)神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。 本文以一种简单的,循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要求,但是懂一些机器学习基础会更好地帮助理解本文。 神经网...
2019-05-16 15:14:20 1092
原创 朴素贝叶斯算法原理理解
朴素贝叶斯流程如下:1.设 x={a1,a2,…,am}为一个待分类项,而每个 a 为 x 的一个特征属性。2.有类别集合 C={y1,y2,…,yn}。3.计算 P( y1|x) ,P( y2|x),…, P( yn|x)。4.如果 P( yk|x) =max{P( y1|x),P( y2|x),…, P( yn|x)},则 x∈yk。那么现在的关键就是如何计算第 3 步中的各个条件...
2019-05-09 10:41:04 867
原创 java操作linux shell命令并获得返回值
########自己执行成功的代码###########import com.jcraft.jsch.ChannelExec;import com.jcraft.jsch.JSch;import com.jcraft.jsch.JSchException;import com.jcraft.jsch.Session;import java.io.BufferedReader;im...
2019-04-11 11:31:25 2294
原创 CentOS下shell脚本杀死单个、多个进程
一、脚本杀死一个进程:1、新建一个脚本文件,vim killprocess.sh 写入一下内容:#!/bin/shNAME=$1echo $NAMEID=`ps -ef | grep "$NAME" | grep -v "$0" | grep -v "grep" | awk '{print $2}'`echo $IDecho "-------分割线--------"for i...
2019-01-23 14:25:32 3621 1
转载 [python] 使用Jieba工具中文分词及文本聚类概念
原文地址: https://blog.csdn.net/Eastmount/article/details/50256163 前面讲述了很多关于Python爬取本体Ontology、消息盒InfoBox、虎扑图片等例子,同时讲述了VSM向量空间模型的应用。但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工...
2018-12-28 15:59:55 840
转载 Spark 2.0系列之SparkSession详解
用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark2的难度也...
2018-12-21 14:48:56 10060
转载 jdk 配置以及配置出错could not open `C:\Program Files\Java\jre7\lib\amd64\jvm.cfg' 解决方案
JDK的安装1.配置信息:①JAVA_HOME指明JDK安装路径,安装时所选择的路径D:\\Java\jdk1.8.0_121,此路径下包括lib,bin,jre等文件夹(此变量最好设置,因为以后运行tomcat,eclipse等都需要依*此变量); ②Path使得系统可以在任何路径下识别java命令,设为:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin...
2018-09-26 15:42:20 1446
原创 Java thrift服务器和客户端创建实例
首先环境介绍一下:thrift-0.10.0下载地址:http://archive.apache.org/dist/thrift/<1>创建HelloWorld.thriftnamespace java com.thrift.demoservice HelloWorldService{string sayHello(1:string username)} ...
2018-08-23 17:33:28 354
原创 手动开启/关闭HDFS的safemode(安全模式)
在hadoop启动namenode的时候,会启动安全模式(safemode),在该模式下,namenode会等待datanode向它发送块报告(block report),只有接收到的datanode上的块数量(datanodes blocks)和实际的数量(total blocks)接近一致, 超过 datanodes blocks / total blocks >= 99.9% ...
2018-08-18 12:14:56 4146
原创 Flume增量采集mysql数据库数据到HDFS、Kafka
软件版本号 jdk1.8、apache-flume-1.6.0-bin、kafka_2.8.0-0.8.0、zookeeper-3.4.5需要向apache-flume-1.6.0-bin/lib 放入两个jar包flume-ng-sql-source-1.3.7.jar -->flume的mysql source 下载地址: https://github.com/keedio/...
2018-07-26 17:20:48 4802 15
原创 Sqoop Mysql导入到HDFS
导入test数据库sqoop表到指定目录参数:--target-dir /directory1例:sqoop import --connect jdbc:mysql://node1:3306/test --username root --table sqoop --m 1 --target-dir /sqoop/1导入表子集参数:--where <condition>1例如:sqoop...
2018-07-13 11:06:24 788
转载 IDEA搭建SpringBoot工程(离线)
SpringBoot的具体介绍可以参看其他网上介绍,这里就不多说了,就这几天的学习,个人理解,简而言之: (1)它是Spring的升级版,Spring容器能做到的事情,它都能做到,而且更简便,从配置形式上来说,SpringBoot完全抛弃了繁琐的XML文件配置方式,而是替代性地用注解方式来实现,虽然本质来说,是差不多的(类似包扫描,注解扫描,类加载之类)。 (2)SpringBoot集成的插件更多...
2018-07-12 15:24:56 23623 5
原创 tomcat运行war包,生成的文件中文乱码
两个项目之前在ide(环境都是utf8)当中互发请求的时候,验签都是通过的,但是打成war包运行后,就会报验签不通过,各种检查后,那就只有编码问题,收到的数据因为编码问题变掉了,指定下jvm的编码1、在tomcat目录下的conf文件夹下,打开server.xml在<Connector port="8080" ... > 中添加 URIEncoding="UTF-8" 。 2、在t...
2018-07-06 15:05:56 3424
原创 kafka 0.10发送、接收大消息解决办法
配置三个地方: Broker: message.max.bytes and replica.fetch.max.bytes Producer: max.request.size Consumer: max.partition.fetch.bytes注意: message.max.bytes必须小于等于replica.fetch.max.bytes...
2018-07-02 15:15:21 1906
原创 kafka监控工具KafkaOffsetMnitor配置、使用
先下载编译好的KafkaOffsetMonitor-assembly-0.4.1-SNAPSHOT.jar地址:点击进入将此jar包上传服务器编写脚本 kafkaMonitor_start.sh:(脚本要和jar包放在同一个目录下)java -cp KafkaOffsetMonitor-assembly-0.4.1-SNAPSHOT.jar \ com.quantifind.kafka....
2018-05-22 10:36:37 418
转载 Kafka消费者Heartbeat分析
消费者会定期向GroupCoordinator发送HeartbeatRequest来确定 彼此在线,也就是说告诉GroupCoordinator我还活着,或者也判断GrooupCoordinator是否还活着 HeartbeatRequest的组成:它是由groupId,generationId,memberId.HeartbeatResponse组成:它只有一个errorCodeHeartbea...
2018-05-18 14:24:29 5080
转载 RPC服务和HTTP服务对比
很长时间以来都没有怎么好好搞清楚RPC(即Remote Procedure Call,远程过程调用)和HTTP调用的区别,不都是写一个服务然后在客户端调用么?这里请允许我迷之一笑~Naive!本文简单地介绍一下两种形式的C/S架构,先说一下他们最本质的区别,就是RPC主要是基于TCP/IP协议的,而HTTP服务主要是基于HTTP协议的,我们都知道HTTP协议是在传输层协议TCP之上的,所以效率来看...
2018-05-11 09:42:23 788
转载 云计算,大数据,人工智能三者有何关系?
原创:http://cloud.idcquan.com/yjs/115806.shtml云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。想象你有一大堆的服务器,交换机,存储设备,放在你的机房里面,你最想做的事情就是把这些东西统一的管理起来,最好能达到当别人向你请求分配资源的时候(例如1核1G内存,10G硬盘,1M带宽的机器),能够达到想什么时候要就能什么时候要,想...
2018-05-10 15:22:09 506
原创 集群SSH免密登录
这里以三台服务器为例:master、slave1、slave2给3个机器生成秘钥文件以master为例,执行命令,生成空字符串的秘钥(后面要使用公钥),命令是:1. [root@master .ssh]# ssh-keygen -t rsa -P '' 2. ls /root/.ssh/使用同样的方法为slave1和slave2生成秘钥(命令完全相同,不用做如何修改):1. [r...
2018-05-10 14:00:04 3803
原创 Java Web提交任务到Spark Spark通过Java Web提交任务
相关软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , MyEclipse2014,intelliJ IDEA14,JDK1.8,Tomcat7机器:windows7 (包含JDK1.8,MyEclipse2014,IntelliJ IDEA14,TOmcat7);centos6.6虚拟机(Hadoop伪分布式集群,Spark standAlone集群,JDK1.8)...
2018-05-09 09:42:41 4223
原创 Flume中的HDFS Sink配置参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。typehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使用flume提供的日期及%{host...
2018-04-26 16:33:55 348
原创 Flume数据采集常用案例
flume的案例 1)案例1:Avro Avro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制。 a)创建agent配置文件?1234567891011121314151617181920212223root@m1:/home/hadoop#vi /home/hadoop/flume-1.5.0-bin/conf/avro.conf a1.sour...
2018-04-26 15:59:53 1814
原创 Ambari安装----Confirm Hosts Registering with the server failed解决办法
安装Ambari到Confirm Hosts这步过不去了!点击红色“Failed”,查看详细错误:[html] view plain copy========================== Creating target directory... ========================== Command start time 2016-11-09 16:24:42 ...
2018-04-18 17:04:06 8718 1
原创 CentOS6、7 局域网离线安装Ambari
(自己安装多遍,踩过各种坑,终于趟顺了,下面绝对完整版)(安装6、7的步骤一样,只是相关执行命令6、7会有差别)1.1 Ambari Ambari的作用来说,就是创建、管理、监视 Hadoop的集群。Ambari自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server和 Ambari Agent。简单来说,用户通过Ambari Server通知 Ambari Agen...
2018-04-18 15:50:28 2300
原创 常用的正则表达式
一、校验数字的表达式数字:^[0-9]*$n位的数字:^\d{n}$至少n位的数字:^\d{n,}$m-n位的数字:^\d{m,n}$零和非零开头的数字:^(0|[1-9][0-9]*)$非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(\.[0-9]{1,2})?$带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})$正数、负数、和小数:^(\-|\+)?\d+(\...
2018-04-04 09:55:27 267
原创 Windows下Python3安装Scrapy
安装前提:Window已经安装好了Python3,我电脑里安装的是Python3.6,将python_home和python目录下的Scripts配置到环境变量中,安装好pip。1、安装pywin32pip install pywin322、安装lxmlpip install lxml (我的python暗黄目录lib下面已经有了,提示不用安装)3、安装Twisted去http://www.lfd...
2018-04-03 11:35:46 207
原创 查看Linux系统版本信息
一、查看Linux内核版本命令(两种方法):1、cat /proc/version[root@S-CentOS home]# cat /proc/versionLinux version 2.6.32-431.el6.x86_64 (mockbuild@c6b8.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (...
2018-03-30 17:46:28 244
原创 LINUX执行mysql报错:-bash: mysql: command not found
在linux命令行执行:]# ln -fs "mysql的绝对路径"/bin/mysql /usr/bin====我的mysql的绝对路径/usr/local/mysql-5.7.16/========eg:ln -fs /usr/local/mysql-5.7.16/bin/mysql /usr/bin====这样在任何的路径下都可以执行mysql启动命令:]# mysql -uroo...
2018-03-30 15:39:35 2870
原创 如何将LINUX本地的文件内容写入到远程服务器的文件中
服务器之间最好ssh免密码登录,如果不是免密码登录,每次写入都要手敲密码。------------将本地的test.log文件的内容写入到远程服务器test1.log文件中。脚本内容:#!bin/bashssh root@192.168.30.1 'cat /opt/test.log >> /opt/test1.log'-------------将远程服务器test1.log文件中的内...
2018-03-30 14:53:19 9399 1
转载 JVM架构和GC垃圾回收机制详解
JVM被分为三个主要的子系统:1. 类加载器子系统2. 运行时数据区3. 执行引擎1. 类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时(不是编译时)首次引用一个类时,它加载、链接并初始化该类文件。1.1 加载类由此组件加载。启动类加载器 (BootStrap class Loader)、扩展类加载器(Extension class Loader)和应用程序类加载器...
2018-03-26 14:40:14 455
转载 内存溢出的几种原因和解决办法
对于JVM的内存写过的文章已经有点多了,而且有点烂了,不过说那么多大多数在解决OOM的情况,于此,本文就只阐述这个内容,携带一些分析和理解和部分扩展内容,也就是JVM宕机中的一些问题,OK,下面说下OOM的常见情况:第一类内存溢出,也是大家认为最多,第一反应认为是的内存溢出,就是堆栈溢出:那什么样的情况就是堆栈溢出呢?当你看到下面的关键字的时候它就是堆栈溢出了:java.lang.OutOfMem...
2018-03-19 16:48:32 87273 6
原创 Kafka监控工具KafkaOffsetMonitor配置及使用
KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具,其配置和使用特别的方便。源项目Github地址为:https://github.com/quantifind/KafkaOffsetMonitor。 一、KafkaOffsetMonitor的使用 因为完全没有安装配置的过程,所以直接从KafkaOffsetMonitor...
2018-03-16 14:16:03 1978
原创 Flume采集数据到HDFS中,开头信息有乱码
Flume采集数据,在生成的HDFS文件中,总是有“SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable??H謺NSA???y”信息,在Flume文档中介绍,hdfs.fileType默认为SequenceFile,将其改为DataStream就可以按照采集的文件原样输入到hdfs,加一行a1.sinks....
2018-03-15 10:45:25 1455
原创 Flume基础学习笔记
一、什么是flumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Ag...
2018-03-14 17:20:06 376
原创 Flume配置参数说明
channelType:hdfspath:写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix: 默认值:FlumeData 写入hdfs的文件名前缀,可以使用flume提供的日期及%{host}表达式。fileSuffix:写入hdfs的文件名后缀,比如:.lzo .l...
2018-03-14 17:18:49 2661
原创 大数据架构:Kafka
Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费KAFKA: 分布式的发布-订阅消息系统,主要用于处理活跃的数据 特点:高吞吐量: 每秒百万级别的生产消费----生产消费 持久性: 由完善的消息存储机制,确保数据...
2018-03-06 14:53:01 4130
原创 解压缩报错tar: Error is not recoverable: exiting now
解压缩报错tar: Error is not recoverable: exiting now[root@Gris-11140 FMIS2600bak]# tar -zxvf /home/oradata/FMIS2600DMP.tar.gzgzip: stdin: not in gzip formattar: Child returned status 1tar:
2018-01-29 10:50:10 42401 4
原创 Hive --- 日期函数
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'
2017-11-28 14:52:40 443 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人