- 博客(113)
- 资源 (1)
- 收藏
- 关注

原创 网络爬虫的基本实现
这一阵子在看爬虫,特别是看了黄忆华的webMagic,理解了一下他设计爬虫的思想,我也尝试着写出了一个简单的爬虫,给大家分享一下。 首先,如果让我们去获取某一网页的信息,给我们直观的感觉就是要获取当前页和当前页的URL;爬虫就是基于这两个核心,发展成为 1.对抓取目标的描述或定义(获取当前页); 2.对网页或数据的分析与过滤(指定U
2015-04-08 14:39:07
908
原创 数据库设计规范
INSERT语句使用batch提交(INSERT INTO table VALUES(),(),()……),values的个数不应过多。使用UTF8存储汉字 varchar(255)=765字节,过大的长度会消耗更多的内存。加强开发人员在开发过程对数据库的合理使用,提高数据库的使用效率和规范数据库的操作。COUNT(*),而不是 COUNT(primary_key)和COUNT(1)。(a,b,c) 相当于 (a) 、(a,b) 、(a,b,c)。VARCHAR(N)中的N代表的是字符数,而不是字节数,
2024-08-16 17:28:02
1002
转载 数据虚拟化
何选择合适的一个,为什么您可能需要多个经常会问数据架构师和企业架构师哪种类型的数据存储最适合企业。Kimball将数据交付给消费者(其他系统,分析,BI,DW)的集成方法称为"数据仓库总线体系结构"。 这些数据存储的组合有时对于创建此体系结构是必需的。让我们看一下可用的选项,以及增强型仓库方法如何演变。每种数据存储和整合模式的简介数据湖· 数据经过最小的转换就被吸收到存储层中,并保留了输入格式,结构和粒度。 包含结构化和非结构化数据。· 捕获并托管多种数据源-批量,外部,供应商提供,变更数据捕获
2022-05-24 16:02:10
691
原创 lot number和 batch number的区别
使用相同原料并且生产过程相同的叫:batch number同一次生产的产品叫:lot numberbatch number 的概念要大于lot number
2021-12-06 15:53:22
4423
转载 实时数仓建设
实时数仓的实施关键点:端到端数据延迟、数据流量的监控故障的快速恢复能力数据的回溯处理,系统支持消费指定时间段内的数据实时数据从实时数仓中查询,T+1数据借助离线通道修正数据地图、数据血缘关系的梳理业务数据质量的实时监控,初期可以根据规则的方式来识别质量状况原始层ods:原始数据层,事实数据,存储在kafka中明细层dwd:数据明细层,可以做一些join等加宽处理,可以存储在kafka和redis中汇总层dim:维度数据,如存储在HBase中的数据应用层dm:MySQL ->
2021-09-30 17:04:19
202
原创 Redis rdb 工具分析步骤
Redis rdb 工具分析步骤通过redis-cli -p 6380 命令进入到具体的redis server中,执行bgsave命令,将会在/redis 目录下生成dump.rdb文件将dump后的文件发送到163服务器(163服务器安装了rdb tools)scp /redis/dump.rdb root@10.50.10.163:/var/lib/mysql-files/...
2020-04-27 09:24:27
728
转载 GreenPlum获取table、schema及其database大小
获取某一个特定表的大小:select pg_size_pretty(pg_relation_size('schema_name.table_name'));主要,如果这里是一个分区表,那么查询到的结果为0,详见:http://blog.csdn.net/sptoor/article/details/11170799查询一个schema下各表的空间:select schemaname ...
2020-01-10 14:41:19
1427
转载 Codis与RedisCluster的原理详解
背景介绍我们先来看一下为什么要做集群,如果我们要部署一个单节点Redis,很明显会遇到单点故障的问题。首先能想到解决单点故障的方法,就是做主从,但是当有海量存储需求时,单一的主从结构就会出问题,说问题之前要先了解一下主从之间是如何复制的。我们把Redis分为三个部分,分别是客户端、主节点以及从节点,如果从节点要同步主节点的数据,它首先会发Sync指令给主节点,主节点收到指令之后...
2019-12-20 16:42:56
231
原创 mount文件系统
linuxmount //10.50.10.100/nas_ocxp /dfs/lionwindowsmount -t cifs -o username=aaaa,password=555,iocharset=utf8 //10.50.10.100/nas_ocxp /dfs/lion
2019-12-04 11:05:34
234
原创 GreenPlum table lock原因查询,来自那一条SQL
首先我们通过查询锁表SQLselect * from gp_toolkit.gp_locks_on_relation WHERE lorrelname like '%wpp_cdefect_glass_f%';,如下图所示,找到lorrelation栏位。下图中查询分区表锁表原因上图中分区表锁表的lorrelation 是 19908395select pid from pg_locks w...
2019-12-03 15:57:05
586
原创 任务统计方式
任务总数 = 上周剩余需求总数 + 新增需求数量 + 请求变更数量 + 修复BUG总数;上周剩余需求总数新增需求数量请求变更数量发现并修复BUG数量未完成数量完成数量逾期完成数量...
2019-10-24 14:25:40
407
原创 启动命令
codis启动命令单只redis启动命令:codis-server /redis/codis/redis/redis-6380/redis.conf #后面跟相应端口redisconfigcodis-proxy启动命令(每个节点都要执行):nohup codis-proxy --ncpu=2 --config=/redis/codis/conf/proxy.toml -...
2019-09-12 14:55:02
218
原创 Memory Analyzer Tool命令
cd /opt/mat/mat./ParseHeapDump.sh /aplog/qms/dump/qmsDump.hprof org.eclipse.mat.api:suspects
2019-09-09 14:28:22
286
原创 成长路线
架构师内功心法(设计模式)Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式Decorator装饰器模式Observer观察者模式架构师审美观(品味经典,分析源码)Spring核心原理SpringWed应用Spring数据访问Spring案例分享Mybat...
2019-08-23 09:26:03
148
转载 开发规范
数据库设计规范表设计规范1、表名全部小写,单词间通过’_'间隔2、主键命名为’id’,pg库类型为serial自增长主键,会默认创建名为[表名_id_seq]的序列3、必须包含4个审计字段且不能为空。created_time、updated_time、created_by、updated_by。4、关键词要求大写,使用IDE如idea进行格式化5、常量枚举全部用大写外键及索引命名规范...
2019-08-22 10:44:02
139
转载 日志码
插件名(-) | 日志版本(1位) | 日志级别(1位) | 日志码(3位)日志级别:0: 普通日志输出。1: 业务警告:这类日志一般是业务使用不当时的输出,比如不推荐使用哪些接口、发现业务潜在的风险时,打印的日志。业务开发人员需要知道这样的输出,并能正确解决2: 业务错误:这类日志一般是业务异常时的输出,当出现这个日志时,系统的某个服务可能会不可用,或者状态异常。业务开发人员需要知道这样...
2019-07-26 17:47:48
191
原创 JVM 分析CPU内存 线程 等工作情况
setsid /usr/local/jdk1.8.0_144/bin/java -Djava.rmi.server.hostname=10.50.10.161 -Dcom.sun.management.jmxremote=true -Dcom.sun.management.jmxremote.port=18997 -Dcom.sun.management.jmxremote.ssl=false -...
2019-07-22 15:58:18
216
1
原创 Nginx配置max_fails fail_timeout 不起作用
目的: 通过配置max_fails、fail_timeout来达到当一台服务器访问出现非200时可以跳转到另一台服务器操作: 配置nginx.conf文件 具体配置如下 upstream report{ ...
2019-03-25 18:06:02
13097
原创 GP 监控
本系统大体分为三个部分Master/Segment/Client:Master和Segment都是一个单独的PostgrepSQL数据库。每一个都有自己单独的一套元数据字典。 Segment节点与Master节点的通讯,通过万兆网卡组成的内部网络连接(InterConnect)。 Client一般只能与Master节点进行交互。m数据库说明1. 统一分析处理可以在同一个并行数据流引擎...
2019-03-07 11:28:31
855
原创 Java List 加引号 不用for循环
其实这个也是循环,但是比for稍微优雅一点String result = myList.stream() .map(s -> "\"" + s + "\"") .collect(Collectors.joining(", "));
2019-02-26 10:52:19
1550
转载 数据仓库之 ETL漫谈
本文转自: http://superlxw1234.iteye.com/blog/1666960ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为:数据源–>ODS(操作型数据存储)–>DW–>DM(data mart)ETL贯穿其各个环节。一、数据抽取: 可以理解为...
2018-10-15 14:09:52
158
原创 oracle
查询正在执行中的sqlSELECT sid, b.serial#, sql_textFROM v$process a, v$session b, v$sqlarea cWHERE a.addr = b.paddr AND b.sql_hash_value = c.hash_value;查询锁的表 select a.session_id, c.serial#, a.locke...
2018-09-07 16:48:32
141
原创 Hibernate: null java.sql.SQLException: 要执行的 SQL 语句不得为空白或空值
我在使用hibernate是,发现报错如下org.springframework.orm.jpa.JpaSystemException: could not prepare statement; nested exception is org.hibernate.exception.GenericJDBCException: could not prepare statement ...
2018-08-11 14:41:25
8292
原创 oracle sequence 触发器 自增
-- Create sequence create sequence DM.KPI_ITEM_D_SEminvalue 1maxvalue 999999999999999999999999999start with 41increment by 1cache 20;CREATE OR REPLACE TRIGGER DM.KPI_ITEM_DT_TR before inse...
2018-07-28 14:17:39
190
原创 数据库 GP
根据表分区规则,减少查询partion数量;资源管控/限制 根据不同项目分配账号限制连接数数量限制内存限制并发resource group 资源限制(按各个账号拆分内存)限制查询条件时间的长度(分区是按时间来分的)分区partion查询,只要跨分区,就每个partion分区分配26M...
2018-07-05 10:32:09
849
翻译 关于JAVA异常处理的20个最佳实践
关于JAVA异常处理的20个最佳实践原文地址 在我们深入了解异常处理最佳实践的深层概念之前,让我们从一个最重要的概念开始,那就是理解在JAVA中有三种一般类型的可抛类: 检查异常(checked exceptions)、未检查异常(unchecked Exceptions) 和 错误(errors)。异常类型检查异常(checked exceptions) 是必须在在方法的throw...
2018-05-24 21:07:58
3108
原创 GP 查询sql进程,kill进程
查询当前gp中进程select * from pg_stat_activity删除进程select pg_cancel_backend(procpid);SELECT pg_terminate_backend(procpid);已上两个kill不掉可以用kill -9 procpid杀掉进程,但是会导致 segementdown掉(亲测)查询当前client_ad...
2018-05-10 09:26:30
4847
转载 js实现导出数据到excel
function JSONToExcelConvertor(JSONData, FileName, ShowLabel) {//先转化json var arrData = typeof JSONData != 'object' ? JSON.parse(JSONData) : JSONData; var excel = '';//生成表头 var row = ""; for (var
2018-01-25 16:55:50
2342
原创 java 多线程,java1.8-1.7等功能
ExecutorService 四种线程池 newCachedThreadPool 创建一个可缓存线程池,如果线程池长度超过处理需要,可灵活回收空闲线程,若无可回收,则新建线程。 使用场景:缓存型池子通常用于执行一些生存期很短的异步型任务,因此在一些面向连接的daemon型SERVER中用得不多。 newFixedThreadPool 创建一个定长线程池,可控制线程最大并
2018-01-22 16:45:28
742
转载 Spring & Springboot 相关中文文档 链接
Spring 中文文档 http://spring.cndocs.ml/Spring boot 中文文档http://blog.geekidentity.com/spring/spring_boot_translation/
2018-01-01 14:28:20
7074
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人