- 博客(34)
- 资源 (1)
- 收藏
- 关注
原创 2020-09-16
http://soft-hub.cn/article/ll2d7f50fa62eb45f0171c5321f9fc926f.zip
2020-09-16 08:27:13
448
原创 shiro源码分析
Shiro 源码核心方法:org.apache.shiro.web.servlet.AbstractShiroFilter#doFilterInternal,拦截用户请求,进行处理protected void doFilterInternal(ServletRequest servletRequest, ServletResponse servletResponse, final FilterChain chain) throws ServletException, IOEx
2020-08-28 16:36:29
138
原创 JWT 使用分析
JWT 使用分析JWT 即(JSON WEB TOKEN),用于前后端分离的web项目的身份验证。JWT计算方式JAVA实现依赖jar包<dependency> <groupId>io.jsonwebtoken</groupId> <artifactId>jjwt-api</artifactI...
2019-12-12 14:48:27
346
原创 shell脚本中单引号和双引号的区别
shell脚本中单引号和双引号的区别新建测试脚本test.sh#!/bin/bashval=22echo $valecho "$val"echo '$val'echo "'$val'"echo '"$val"'修改执行权限chmod 777 test.sh执行结果[root@cdh01 ~]# ./test.sh2222$val'22'"$val"结论...
2019-09-23 10:29:29
1539
原创 Centos安装mysql
Centos7安装mysql选择mysql版本https://dev.mysql.com/downloads/mysql/下载wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.27-1.el7.x86_64.rpm-bundle.tar解压tar -xvf mysql-5.7.27-1.el7.x86_64.rpm-b...
2019-09-16 20:16:33
101
原创 jvm之类加载器
jvm类加载器jvm自带的类加载器三种。1. 启动类加载器,由C++实现。负责加载$JAVA_HOME/jre/lib/rt.jar包。2. 扩展类加载器,由JAVA实现。负责加载$JAVA_HOME/jre/lib/ext/*.jar包,如javax包下的类。3. 应用类加载器,由JAVA实现。负责加载当前应用classpath下的包,我们编写的类文件由其负责加载。非jvm自...
2019-09-14 09:14:32
82
原创 Hdfs基准测试
Hdfs写性能测试执行命令yarn jar /soft/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5-tests.jar TestDFSIO -write -nrFiles 2 -size 5GB结果19/09/05 00:00:57 INFO fs.TestDFSIO: ---...
2019-09-11 08:28:27
315
原创 hive自定义udf、udtf
创建mavena项目,引入依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> ...
2019-09-11 08:27:12
144
原创 python使用sorted对dict排序
dict_ = {"a": 2, "b": 1, "c": 3}""" iterable: 待排序的可迭代集合 key: iterable中每一项中的第几个key reverse: true 降序,false 升序"""sorted(dict_.items(), key=lambda item: item[1])...
2019-09-06 08:29:02
1539
原创 flume自定义拦截器进行日志采集,并写入kafka
项目架构创建maven项目,引入依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.8.0</version> <scope>pr...
2019-09-03 16:17:03
789
原创 curl常用方法
1.curl 用法 Usage: curl [options...] <url> --abstract-unix-socket <path> Connect via abstract Unix domain socket --alt-svc <file name> Enable alt-svc with this cache file...
2019-07-24 11:04:51
815
转载 Python 多进程模式下的压力测试
import osimport timeimport loggingimport requestsimport threadingfrom multiprocessing import Managerfrom concurrent import futuresimport jsondownload_url = 'http://127.0.0.1:8080/'cpu_count ...
2019-07-12 17:25:07
868
原创 Spark SQL报错解决
1、报错如下:org.apache.spark.sql.AnalysisException: Detected implicit cartesian product for INNER join between logical plans解决方式:spark-shell --master yarn --conf spark.sql.crossJoin.enabled=true...
2019-07-12 16:16:32
2737
1
原创 LCS-最长公共子序列scala实现
def main(args: Array[String]): Unit = { // val var1 = "在两个字符串中,有些字符会一样" // val var2 = "两串字符会" // // println(LCS(var1, var2)) val var1 = Array(1, 3, 4, 5, 6, 7, 7, 8) ...
2019-07-11 10:29:52
292
原创 python、spark整合
from pyspark.sql import SparkSession, Rowfrom matplotlib import pyplot as pltspark = SparkSession.builder.master("local[4]").appName("spark_01").getOrCreate()sc = spark.sparkContextlines = sc....
2019-01-09 15:44:29
427
原创 zookeeper相关总结
zookeeper作用----------------------------------------------------- 配置维护 域名服务 分布式同步 组服务zk工作流程----------------------------------------------------- zk集群启动后,client连接到其中的一个节点,这个节点可以l...
2019-01-08 17:48:00
88
原创 hive相关总结
hive安裝 curl -O https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz tar -xzvf apache-hive-2.3.4-bin.tar.gz -C apps/ ln -s apache-hive-2.3.4-bin hive ...
2019-01-08 16:39:01
161
原创 pandas中DataFrame的查询
import pandas as pdimport numpy as nparr = np.random.randn(3,3)arrarray([[-0.4840499 , -1.10358516, -2.02087998], [ 1.47393252, -0.64985477, -0.11712859], [-0.44069225, -0.37788...
2018-12-29 16:00:53
1124
原创 zookeeper 集群安装
zookeeper 集群安装1、安装jdk2、下载http://zookeeper.apache.org/ 3、解压 tar -xzvf zookeeper-3.4.10.tar.gz -C /root/apps/ 4、mv zoo_sample.cfg zoo.cfg5、vi zoo.cfg6、修改zoo.cfg #指定数据文件存放目录 dataDir=/...
2018-12-13 09:36:43
83
原创 MapReduce执行流程
map:1、inputformat对输入文件做逻辑切分,生成List<InputSplit>2、InputSplit描述了切片的大小、位置3、RecordReader将InputSplit分为key/value pairs输入Mapper4、执行map方法5、转为字节数组写入到内存缓冲区。 当达到容量的80%时, 启动一个新线程将内存缓冲区中的内容排序、归并,如果设置...
2018-11-28 14:07:39
543
原创 双向链表实现Lru算法
Lru算法实现:节点依次在链表头部插入,链表尾部即为最近最少使用的节点,当key重复时,新增节点覆盖原有节点,查找时,将查找到的节点放到链表头部。/** * @author spark * @version 1.0 */public class MyLRU { /** * 定义双向链表 */ static class LinkedNode { ...
2018-11-09 08:58:50
3042
原创 MapReduce TopN 多种实现
测试数据:key 1value 3aa 4deng 5haha 8tt 81、使用TreeMap实现topNimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache...
2018-11-05 17:18:34
4120
转载 hadoop概念-MapReduce各个执行阶段及Shuffle过程详解
MapReduce各个执行阶段(1)MapReduce框架使用InputFormat模块做Map前的预处理,比如验证输入的格式是否符合输入定义;然后,将输入文件切分为逻辑上的多个InputSplit,InputSplit是MapReduce对文件进行处理和运算的输入单位,只是一个逻辑概念,每个InputSplit并没有对文件进行实际切割,只是记录了要处理的数据的位置和长度。(2)因为In...
2018-11-05 10:10:01
729
转载 hadoop的HDFS读写数据流程
HDFS写数据流程图1)客户端通过Distributed FileSystem模块向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上...
2018-11-02 14:50:27
499
转载 hbase安装及使用
##1.hbase特性Hbase的表模型与关系型数据库的表模型不同Hbase的表没有固定的字段定义;Hbase的表中每行存储的都是一些key-value对Hbase的表中有列族的划分,用户可以指定将哪些kv插入哪个列族Hbase的表在物理存储上,是按照列族来分割的,不同列族的数据一定存储在不同的文件中Hbase的表中的每一行都固定有一个行键,而且每一行的行键在表...
2018-10-22 10:28:26
105
原创 实现python自定义爬虫框架
import urllib2from lxml import etreeimport Queueimport sslimport reimport threadingimport jsonclass CrawlThread(threading.Thread): def __init__(self, urlQueue, dataQueue, threadName): ...
2018-10-11 16:26:48
939
原创 urllib2爬取小说三寸人间
# -*- coding: UTF-8 -*-import urllib2import reimport sslimport sysif __name__ == "__main__": #代理 proxy = { 'http': 'xxx', 'https': 'xxx' } ssl_context = ssl._...
2018-10-10 16:20:57
264
转载 MySQL大表优化方案
单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候 MySQL 单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量:字段尽量使用TINYINT、SMALLINT、MEDIUM_INT作为整数类型而非INT,如果非负则加上UNSIGNED;...
2018-05-03 17:43:09
94
转载 序列化与反序列化
一、基本概念1、什么是序列化和反序列化(1)Java序列化是指把Java对象转换为字节序列的过程,而Java反序列化是指把字节序列恢复为Java对象的过程;(2)序列化:对象序列化的最主要的用处就是在传递和保存对象的时候,保证对象的完整性和可传递性。序列化是把对象转换成有序字节流,以便在网络上传输或者保存在本地文件中。序列化后的字节流保存了Java对象的状态以及相关的描述信息。序列化机制的核心作用...
2018-05-03 17:10:13
134
转载 关于跨域的
什么是跨域要了解跨域,先要说说同源策略。同源策略是由 Netscape 公司提出的一个著名的安全策略,所有支持 JavaScript 的浏览器都会使用这个策略。所谓同源是指,域名,协议,端口相同。当页面在执行一个脚本时会检查访问的资源是否同源,如果非同源,那么在请求数据时,浏览器会在控制台中报一个异常,提示拒绝访问。同源策略一般又分为以下两种:DOM同源策略:禁止对不同源页面DOM进行操作。这里主...
2018-04-26 14:09:43
246
转载 solr教程
本教程基于solr5.5 前言至于为什么要用solr5.5,因为最新的6.10,没有中文的分词器支持,这里使用的是ik分词器,刚好支持到5.5ik分词器下载地址 :https://github.com/EugenePig/ik-analyzer-solr5 , 下载完之后使用maven命令, mvn package 即可生成jar文件,或者下载我编译好的 http://pan.baidu.com...
2018-04-11 16:54:48
78
原创 break、continue使用标签跳出循环
public static void main(String[] args) { int[][] arr = {{1, 2, 3}, {1, 2, 3}, {1, 2, 3}}; aa: for (int i = 0; i < arr.length; i++) { bb: for (int i1 = 0; i1 < arr[i]....
2018-04-11 14:37:28
415
原创 java的jdk动态代理和cglib动态代理
jdk动态代理 /** * @ClassName: * @Description: Jdk的动态代理:代理对象跟目标对象要实现相同接口,拦截器必须实现InvocationHandler接口 * @yanchan [280822963@qq.com] * @date 2018/4/11 0011 14:11 */public class IInvocationHandler impl...
2018-04-11 14:22:59
84
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人