mannnn__-CSDN博客

原创 2020-09-16

http://soft-hub.cn/article/ll2d7f50fa62eb45f0171c5321f9fc926f.zip

2020-09-16 08:27:13 496

Shiro 源码核心方法：org.apache.shiro.web.servlet.AbstractShiroFilter#doFilterInternal,拦截用户请求，进行处理protected void doFilterInternal(ServletRequest servletRequest, ServletResponse servletResponse, final FilterChain chain) throws ServletException, IOEx

2020-08-28 16:36:29 201

原创 JWT 使用分析

JWT 使用分析JWT 即(JSON WEB TOKEN)，用于前后端分离的web项目的身份验证。JWT计算方式JAVA实现依赖jar包<dependency> <groupId>io.jsonwebtoken</groupId> <artifactId>jjwt-api</artifactI...

2019-12-12 14:48:27 409

原创 shell脚本中单引号和双引号的区别

shell脚本中单引号和双引号的区别新建测试脚本test.sh#!/bin/bashval=22echo $valecho "$val"echo '$val'echo "'$val'"echo '"$val"'修改执行权限chmod 777 test.sh执行结果[root@cdh01 ~]# ./test.sh2222$val'22'"$val"结论...

2019-09-23 10:29:29 1621

原创 Centos安装mysql

Centos7安装mysql选择mysql版本https://dev.mysql.com/downloads/mysql/下载wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.27-1.el7.x86_64.rpm-bundle.tar解压tar -xvf mysql-5.7.27-1.el7.x86_64.rpm-b...

2019-09-16 20:16:33 170

原创 jvm之类加载器

jvm类加载器jvm自带的类加载器三种。1. 启动类加载器，由C++实现。负责加载$JAVA_HOME/jre/lib/rt.jar包。2. 扩展类加载器，由JAVA实现。负责加载$JAVA_HOME/jre/lib/ext/*.jar包，如javax包下的类。3. 应用类加载器，由JAVA实现。负责加载当前应用classpath下的包，我们编写的类文件由其负责加载。非jvm自...

2019-09-14 09:14:32 110

原创 Hdfs基准测试

Hdfs写性能测试执行命令yarn jar /soft/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5-tests.jar TestDFSIO -write -nrFiles 2 -size 5GB结果19/09/05 00:00:57 INFO fs.TestDFSIO: ---...

2019-09-11 08:28:27 360

原创 hive自定义udf、udtf

创建mavena项目，引入依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> ...

2019-09-11 08:27:12 203

原创 python使用sorted对dict排序

dict_ = {"a": 2, "b": 1, "c": 3}""" iterable: 待排序的可迭代集合 key: iterable中每一项中的第几个key reverse: true 降序，false 升序"""sorted(dict_.items(), key=lambda item: item[1])...

2019-09-06 08:29:02 1586

原创 flume自定义拦截器进行日志采集,并写入kafka

项目架构创建maven项目，引入依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.8.0</version> <scope>pr...

2019-09-03 16:17:03 866

原创 curl常用方法

1.curl 用法 Usage: curl [options...] <url> --abstract-unix-socket <path> Connect via abstract Unix domain socket --alt-svc <file name> Enable alt-svc with this cache file...

2019-07-24 11:04:51 874

转载 Python 多进程模式下的压力测试

import osimport timeimport loggingimport requestsimport threadingfrom multiprocessing import Managerfrom concurrent import futuresimport jsondownload_url = 'http://127.0.0.1:8080/'cpu_count ...

2019-07-12 17:25:07 945

原创 Spark SQL报错解决

1、报错如下：org.apache.spark.sql.AnalysisException: Detected implicit cartesian product for INNER join between logical plans解决方式：spark-shell --master yarn --conf spark.sql.crossJoin.enabled=true...

2019-07-12 16:16:32 3122 1

原创 LCS-最长公共子序列scala实现

def main(args: Array[String]): Unit = { // val var1 = "在两个字符串中，有些字符会一样" // val var2 = "两串字符会" // // println(LCS(var1, var2)) val var1 = Array(1, 3, 4, 5, 6, 7, 7, 8) ...

2019-07-11 10:29:52 340

原创 python、spark整合

from pyspark.sql import SparkSession, Rowfrom matplotlib import pyplot as pltspark = SparkSession.builder.master("local[4]").appName("spark_01").getOrCreate()sc = spark.sparkContextlines = sc....

2019-01-09 15:44:29 495

原创机器学习收集

https://www.jianshu.com/p/731610dca805

2019-01-09 14:28:21 163

原创 zookeeper相关总结

zookeeper作用----------------------------------------------------- 配置维护域名服务分布式同步组服务zk工作流程----------------------------------------------------- zk集群启动后，client连接到其中的一个节点，这个节点可以l...

2019-01-08 17:48:00 133

原创 hive相关总结

hive安裝 curl -O https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz tar -xzvf apache-hive-2.3.4-bin.tar.gz -C apps/ ln -s apache-hive-2.3.4-bin hive ...

2019-01-08 16:39:01 213

原创 pandas中DataFrame的查询

import pandas as pdimport numpy as nparr = np.random.randn(3,3)arrarray([[-0.4840499 , -1.10358516, -2.02087998], [ 1.47393252, -0.64985477, -0.11712859], [-0.44069225, -0.37788...

2018-12-29 16:00:53 1185

原创 zookeeper 集群安装

zookeeper 集群安装1、安装jdk2、下载http://zookeeper.apache.org/ 3、解压 tar -xzvf zookeeper-3.4.10.tar.gz -C /root/apps/ 4、mv zoo_sample.cfg zoo.cfg5、vi zoo.cfg6、修改zoo.cfg #指定数据文件存放目录 dataDir=/...

2018-12-13 09:36:43 130

原创 MapReduce执行流程

map:1、inputformat对输入文件做逻辑切分，生成List<InputSplit>2、InputSplit描述了切片的大小、位置3、RecordReader将InputSplit分为key/value pairs输入Mapper4、执行map方法5、转为字节数组写入到内存缓冲区。当达到容量的80%时，启动一个新线程将内存缓冲区中的内容排序、归并，如果设置...

2018-11-28 14:07:39 612

原创双向链表实现Lru算法

Lru算法实现：节点依次在链表头部插入，链表尾部即为最近最少使用的节点，当key重复时，新增节点覆盖原有节点，查找时，将查找到的节点放到链表头部。/** * @author spark * @version 1.0 */public class MyLRU { /** * 定义双向链表 */ static class LinkedNode { ...

2018-11-09 08:58:50 3132

原创 MapReduce TopN 多种实现

测试数据：key 1value 3aa 4deng 5haha 8tt 81、使用TreeMap实现topNimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache...

2018-11-05 17:18:34 4215

转载 hadoop概念-MapReduce各个执行阶段及Shuffle过程详解

MapReduce各个执行阶段（1）MapReduce框架使用InputFormat模块做Map前的预处理，比如验证输入的格式是否符合输入定义；然后，将输入文件切分为逻辑上的多个InputSplit，InputSplit是MapReduce对文件进行处理和运算的输入单位，只是一个逻辑概念，每个InputSplit并没有对文件进行实际切割，只是记录了要处理的数据的位置和长度。（2）因为In...

2018-11-05 10:10:01 794

转载 hadoop的HDFS读写数据流程

HDFS写数据流程图1）客户端通过Distributed FileSystem模块向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。2）namenode返回是否可以上传。3）客户端请求第一个 block上...

2018-11-02 14:50:27 559

转载 hbase安装及使用

##1.hbase特性Hbase的表模型与关系型数据库的表模型不同Hbase的表没有固定的字段定义；Hbase的表中每行存储的都是一些key-value对Hbase的表中有列族的划分，用户可以指定将哪些kv插入哪个列族Hbase的表在物理存储上，是按照列族来分割的，不同列族的数据一定存储在不同的文件中Hbase的表中的每一行都固定有一个行键，而且每一行的行键在表...

2018-10-22 10:28:26 138

原创实现python自定义爬虫框架

import urllib2from lxml import etreeimport Queueimport sslimport reimport threadingimport jsonclass CrawlThread(threading.Thread): def __init__(self, urlQueue, dataQueue, threadName): ...

2018-10-11 16:26:48 986

原创 urllib2爬取小说三寸人间

# -*- coding: UTF-8 -*-import urllib2import reimport sslimport sysif __name__ == "__main__": #代理 proxy = { 'http': 'xxx', 'https': 'xxx' } ssl_context = ssl._...

2018-10-10 16:20:57 302

转载 MySQL大表优化方案

单表优化除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分，拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候 MySQL 单表的性能依然有不少优化空间，甚至能正常支撑千万级以上的数据量：字段尽量使用TINYINT、SMALLINT、MEDIUM_INT作为整数类型而非INT，如果非负则加上UNSIGNED；...

2018-05-03 17:43:09 134

转载序列化与反序列化

一、基本概念1、什么是序列化和反序列化（1）Java序列化是指把Java对象转换为字节序列的过程，而Java反序列化是指把字节序列恢复为Java对象的过程；（2）序列化：对象序列化的最主要的用处就是在传递和保存对象的时候，保证对象的完整性和可传递性。序列化是把对象转换成有序字节流，以便在网络上传输或者保存在本地文件中。序列化后的字节流保存了Java对象的状态以及相关的描述信息。序列化机制的核心作用...

2018-05-03 17:10:13 175

转载关于跨域的

什么是跨域要了解跨域，先要说说同源策略。同源策略是由 Netscape 公司提出的一个著名的安全策略，所有支持 JavaScript 的浏览器都会使用这个策略。所谓同源是指，域名，协议，端口相同。当页面在执行一个脚本时会检查访问的资源是否同源，如果非同源，那么在请求数据时，浏览器会在控制台中报一个异常，提示拒绝访问。同源策略一般又分为以下两种：DOM同源策略：禁止对不同源页面DOM进行操作。这里主...

2018-04-26 14:09:43 325

转载 solr教程

本教程基于solr5.5 前言至于为什么要用solr5.5，因为最新的6.10，没有中文的分词器支持，这里使用的是ik分词器，刚好支持到5.5ik分词器下载地址 :https://github.com/EugenePig/ik-analyzer-solr5 ，下载完之后使用maven命令， mvn package 即可生成jar文件，或者下载我编译好的 http://pan.baidu.com...

2018-04-11 16:54:48 98

原创 break、continue使用标签跳出循环

public static void main(String[] args) { int[][] arr = {{1, 2, 3}, {1, 2, 3}, {1, 2, 3}}; aa: for (int i = 0; i < arr.length; i++) { bb: for (int i1 = 0; i1 < arr[i]....

2018-04-11 14:37:28 461

原创 java的jdk动态代理和cglib动态代理

jdk动态代理 /** * @ClassName: * @Description: Jdk的动态代理：代理对象跟目标对象要实现相同接口，拦截器必须实现InvocationHandler接口 * @yanchan [280822963@qq.com] * @date 2018/4/11 0011 14:11 */public class IInvocationHandler impl...

2018-04-11 14:22:59 110

mannnn__的博客