2019年09月_普通Gopher

原创 CTF隐写总结

打了有小半年ctf比赛了，一直没有时间来写几篇关于ctf的博客，今天抽出时间写了点杂项中隐写的总结，希望能够帮到大家简述隐写术是一门关于信息隐藏的技巧与科学，所谓信息隐藏指的是不让除预期的接收者之外的任何人知晓信息的传递事件或者信息的内容。隐写术的英文叫做Steganography，来源于特里特米乌斯的一本讲述密码学与隐写术的著作Steganographia，该书书名源于希腊语，意为“隐秘书写...

2019-09-30 19:53:49 3309

转载 linux 系统中 /etc/passwd 和 /etc/shadow文件详解

在linux操作系统中， /etc/passwd文件中的每个用户都有一个对应的记录行,记录着这个用户的一下基本属性。该文件对所有用户可读。而/etc/shadow文件正如他的名字一样，他是passwd文件的一个影子，/etc/shadow文件中的记录行与/etc/passwd中的一一对应，它由pwconv命令根据/etc/passwd中的数据自动产生。但是/etc/shadow文件只有系...

2019-09-29 10:48:08 636

原创修改Compare.py报错时的解决方案

错误：在安装opevncv时会出现 ImportError: No module named cv2 的错误，找不到cv2的包。解决：这时候安装扩展包即可：pip install opencv-python错误：Traceback (most recent call last): File "data_generator.py", line 24, in <module&g...

2019-09-25 18:12:08 633 3

原创基于Facenet与MTCNN的人脸识别

本文来自于中国科学院深圳先进技术研究院，目前发表在arXiv上，是2016年4月份的文章，算是比较新的文章。论文地址：https://kpzhang93.github.io/MTCNN_face_detection_alignment/概述相比于R-CNN系列通用检测方法，本文更加针对人脸检测这一专门的任务，速度和精度都有足够的提升。R-CNN，Fast R-CNN，FasterR-CNN...

2019-09-25 18:05:00 1002

原创 python 字典列表相互转换与排序

列表元组字典集合的区别列表：清单可重复，类型可不同 list元组: 类似列表不可修改类型 tuple集合：就是我们数学学的集合应用是去重 set字典：字典存储键值对数据价值是查询，通过键，查找值 dict列表列表的特点：可重复，类型可不同，这是与数组最本质的区别。python中的列表用“[]”表示list=[‘asd’,123]向list中添加项有两种方法：append和...

2019-09-25 16:54:19 6588 1

原创 python 读写csv数据

CSV文件简介CSV(Comma-Separated Values，逗号分隔值)，是一种纯文本形式存储表格数据的文件。该文件由任意数目的记录组成，每条记录被分隔符分隔为字段（最常见的分隔符是逗号或制表符），且每条记录都有相同的字段序列，因此csv相当于一个结构化表的纯文本形式。从直观上看，它比Excel文件更加简洁，然而它不包含诸如XLS电子表格的数值、公式和格式等内容，它仅仅为一个结构化的纯文...

2019-09-25 16:49:27 331

原创在Ubuntu的Anaconda环境下创建深度学习环境

环境准备首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本conda版本为4.5.11conda常用的命令conda list 查看安装了哪些包conda env list或 conda info -e 查看当前存在哪些虚拟环境conda update conda 检查更新当前conda创建python虚拟环境使用...

2019-09-25 16:42:04 641

原创 centos7 访问php 该网页无法正常运作目前无法处理此请求

修改php.ini文件文件在/etc/php.ini由于php.ini配置文件中错误显示关闭导致.将下值由Off 变更为 Ondisplay_errors = Ondisplay_startup_errors = On

2019-09-25 16:32:44 2310

原创分布式消息系统Kafka

分布式消息系统KafkaKafka可以处理消费者规模的网站中的所有动作流数据。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息kafka是一个分布式的、可分区的、可复制的消息系统；kafka是由LinkedIn开发，使用Scala编写；支持水平拓展和高吞吐...

2019-09-18 21:14:51 124

原创 ZooKeeper学习笔记

一什么是 ZooKeeperZooKeeper 的由来Zookeeper最早起源于雅虎研究院的一个研究小组。在当时，研究人员发现，在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调，但是这些系统往往都存在分布式单点问题。所以，雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架，以便让开发人员将精力集中在处理业务逻辑上。关于“ZooKeeper”这个项目的名字，其实...

2019-09-18 21:10:19 127

原创 Zookeeper环境搭建

zookeeper集群安装在master，slave1，slave2上安装hadoop用户进入mastercd /opt/hadoop/tar -zxvf zookeeper-3.4.8.tar.gzvim /etc/profile #zookeeper export ZOOKEEPER_HOME=/opt/hadoop/zookeeper-3.4.8 expor...

2019-09-18 20:39:42 147

原创 Sqoop学习笔记

数据转移工具SqoopSqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Apache框架Hadoop是一个越来越通用的分布式计算环境，主要用来处理大...

2019-09-18 20:33:19 277

原创 Flume学习笔记

为什么用Flume：可靠性：Flume是Cloudera公司的一款高性能、高可用的分布式日志收集系统。Flume的核心是把数据从数据源收集过来再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，再删除缓存的数据。Flume传输数据的基本单位是event，如果是文本文件，通常是一行记录，这也是事务的基本单位。Flume运行的核心是Agent。它是...

2019-09-18 20:27:33 181

原创 Flume多source，多sink组合框架搭建

Flume多source，多sink组合框架搭建Flume运行的核心是Agent。它是一个完整的数据收集工具，含有三个核心组件，分别是Source、Channel、Sink。通过这些组件，Event可以从一个地方流向另一个地方。Source可以接收外部源发送过来的数据。不同的Source可以接受不同的数据格式。Channel是一个存储地，接收Source的输出，直到有Sink消费掉Chann...

2019-09-18 20:22:06 1367

原创 Flume传输数据给Kafka

FlumeFlume是一个海量日志采集、聚合和传输的日志收集系统。Kafka是一个可持久化的分布式的消息队列。由于采集和处理数据的速度不一定同步，所以使用Kafka这个消息中间件来缓冲，如果你收集了日志后，想输出到多个业务方也可结合Kafka，Kafka支持多个业务来读取数据。上图中Kafka生产的数据，是由Flume提供的，这里我们需要用到Flume集群，通过Flume集群将Agent的...

2019-09-18 20:20:21 2072

原创 Hive学习笔记

Hive内部是什么Hive二进制分支版本核心包含3个部分。主要部分是Java代码本身。在$HIVE_HOME/lib 目录下发现有众多的jar包文件。所有的Hive客户端都需要一个metastoreservice（元数据服务），Hive使用这个服务来存储表模式信息和其他元数据信息。通常情况下会使用一个关系型数据库中的表来存储这些信息。默认情况下，Hive会使用内置的Derby sql服务器， ...

2019-09-18 20:04:14 283

原创 Hive beeline Hiveserver2

HiveServer2HiveServer 2(HS2)是一种服务，使客户端能够对Hive执行查询。HiveServer 2是HiveServer 1的继承者，HiveServer 1已被废弃。HS2支持多客户端并发和身份验证。它的设计是为了更好地支持开放API客户机，如JDBC和ODBC。HS2是一个作为复合服务运行的单个进程，它包括基于Thwift的Hive服务(TCP或HTTP)和用于We...

2019-09-18 19:54:32 299

原创 Hive报错记录

创建表的时候报错，重新复制了一下操作成功使用load函数传数据的时候报错问题出在用户夹错误修改配置文件 hive-site,xml <name>hive.metastore.warehouse.dir</name>#hive元数据存放目录,hdfs <value>/usr/hive/warehouse</value> <na...

2019-09-18 18:57:32 299

原创 Hive2.3.0安装笔记

前期准备完成hadoop的安装完成mysql的安装下载Hivewget http://mirror.bit.edu.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-bin.tar.gz或者去官网安装解压到指定安装目录用xftp将安装包传到opt/hadoop中解压：tar -zxvf apache-hive-2.3.0-bin.tar.gz...

2019-09-18 18:49:58 299

原创 Spark 2.4.2的环境搭建

依赖环境：ScalaSpark是使用Scala编写的，用Scala编写Spark任务可以像操作本地集合对象一样操作分布式数据集RDD安装的过程可以参考我的这篇文章Scala安装安装完scala可以查看版本scala -version这里重点介绍Spark的安装，相比于hadoop的安装要简单一些，而且步骤类似，话不多说，开始！Spark的安装解压tar -zxvf /spark...

2019-09-18 15:53:27 366

原创 VMware Workstation 14运行虚拟机黑屏时的解决方案

管理员运行 netsh winsock reset 帮你解决一切烦恼好吧，说正经的，虚拟机和主机之间的通信，基本上是以 socket 的方式进行通信的（这里的 socket 泛指一切 socket，包括本地的、网络的等等）某个程序通过 LSP 给系统的 TCP/IP stack 注入了自己的 DLL，如果程序退出时，没有把这个 DLL 收回来，或者回收失败、没有彻底回收等，那么这个 DLL 残...

2019-09-10 19:32:48 328

原创 Esxi centos7搭建NAT和DHCP服务器

什么是NAT？NAT（Network address translation）即网络地址转换，作为一种过渡解决手段，可以用来减少对全球合法IP地址的需求。简单的说，NAT就是在内部专用网络中使用内部地址，而当内部节点要与外界网络发生联系时，就在边缘路由器或者防火墙处，将内部地址转换成公网地址，从而使得在外网（Internet）上使用一个和数个合法IP地址正常传输数据。其中，这里的外网和内网是相对...

2019-09-07 19:21:52 3129

原创 tracert命令详解

tracert命令Tracert是路由跟踪程序，用于确定 IP 数据报访问目标所经过的路径。Tracert 命令用 IP 生存时间 (TTL) 字段和 ICMP 错误消息来确定从一个主机到网络上其他主机的路由。在工作环境中有多条链路出口时，可以通过该命令查询数据是经过的哪一条链路出口。Tracert一般用来检测故障的位置，我们可以使用用tracert IP命令确定数据包在网络上的停止位置，来...

2019-09-06 22:07:13 11724 2

原创 win10下用IDEA+Hadoop运行时的环境搭建

构建win10下用IDEA运行Hadoop程序本地解压hadoop安装包：如图2.将hadoop添加到环境变量中在Path变量中添加[外链图片转存失败(img-1NtPRFvX-1567778520881)(image007.png)]下载winutils工具,将bin目录覆盖到解压的hadoop安装包中3.在IDEA中构建新项目：注意：IDEA必须下载专业版打开之后：...

2019-09-06 22:05:27 1886

原创 CentOS7关闭SELinux

查看[root@dev-server ~]# getenforceDisabled[root@dev-server ~]# /usr/sbin/sestatus -vSELinux status: disabled临时关闭设置SELinux 成为permissive模式setenforce 1 设置SELinux 成为enforcing模式seten...

2019-09-06 22:01:32 178

原创 Centos 7下安装PHP 7

CentOS 7的官方软件源中，只有PHP 5.4这个官方已经不再提供技术支持的老版本。不仅仅是为了安全原因，只是PHP 7中的那些新特性，就要求我们必须更新到新版本下。启用EPEL和REMI软件源执行以下指令，分别安装EPEL和Remi软件源：yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.n...

2019-09-06 22:00:39 111

原创解决vmware（vsphere）部署linux系统模板后无法联网问题

解决使用vmware（vsphere）部署linux的ova（ovf）模板后，会发现系统启动后无法联网。这是因为ifcfg-eth0配置文件中保存的MAC地址与当前系统实际的MAC地址不一致引起的。可通过如下步骤解决：删除ifcfg-eth0配置文件中的HWADDR行删除HWADDR所在行内容删除70-persistent-net.rules文件rm /etc/udev/rules....

2019-09-06 21:58:59 789

原创 HDFS文件接口

命令基本格式:hadoop fs -cmd < args >lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件puthadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在...

2019-09-06 21:57:50 437

原创 JobTracker和TaskTracker详述

概述Hadoop MapReduce采用Master/Slave结构。Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。JobTracker剖析概述：JobTracker是一个后台服务进程，启动之后，会一...

2019-09-06 21:57:04 1048

原创基于Hadoop平台使用MapReduce统计某银行信用卡违约用户数量

统计某银行信用卡违约用户数量csv下载地址违约规则：AY_1～PAY_6：PAY_1为2005年9月的还款情况；PAY_2为2005年8月的还款情况；…；PAY_6为2005年4月的还款情况。BILL_AMT1～BILL_AMT6和PAY_AMT1～PAY_AMT6中数字标识的含义也是如此。PAY_1～PAY_6的取值含义为：0 = 及时还；1 = 还款延迟一个月；2 = 还款延迟两个月；3...

2019-09-06 21:56:03 587

普通Gopher