自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 louvain算法

社区发现的算法多种思路,比较常见的有两种:一种是分离的思路,就是找出社区之间的边,把这些边从图中移除;另一种是聚合思路,将联系紧密的节点聚合为一个社区,并通过优化某个相关变量的函数来实现聚合。前人已在两个思路上有了大量的研究,而根据这两类算法的结果看,聚合的思路比分离思路好,且算法的效率也比较高。因此,聚合算法吸引了很多学者做了大量相关研究,逐步形成了现在的社区发现算法。比如密歇根大学的M.E.J.Newman和康奈尔大学的M.Girvan,他们在2003年提出了一个基于模块属性的测量方法。

2022-09-28 11:15:35 1875 1

原创 C语言数组

我们可以看到,如果是从1开始每次寻找该数组的地址都要进行减1 ,别看这一个小小的减1。当我们的数组元素过多的时候,进行的减1也变多了。这样程序运行的速度就变慢了,占的内存也更多了。那么如果我们从0开始的话就不会出现每次寻址的时候都要进行减1这样的操作。数组下标是从0开始,是为了数组寻址更方便。按我们平常的思想从1开始不是更方便吗?数组是一种线性表数据结构,它是一相同类型的数据在内存中连续存储的。

2023-11-09 15:59:10 86

原创 hive 存储格式理解(对比TextFile和RCFile)

serdeserde是序列化(serializer)和反序列化(deserializer)的简称Hive uses SerDe (and FileFormat) to read and write table rows.HDFS files --> InputFileFormat --> <key, value> --> Deserializer --> Row objectRow object --> Serializer --> <ke

2022-05-17 16:39:05 471

原创 airflow2.0定时调度end_date相关分享

需求:airflow上已经设定end_date之后,想在end_date之后继续执行。已知:airflow上的定时调度是靠start_date和end_date进行限制的,在[start_date,end_date]区间中按照schedule_interval去执行。方案:用官方提供cli命令覆盖已有的end_dateairflow dags trigger [-c CONF] dag_id示例:airflow dags trigger -c {"end_date":"2022-12-

2022-02-10 17:47:26 667

原创 面向对象绘图

2022-01-19 15:11:27 301

原创 常用协议端口号

POP3:110端口,邮件收取。SMTP:25端口,邮件发送。FTP:20数据端口/21控制端口,文件传输协议。http:80端口,超文本传输协议,网页传输。dhcp:67端口,ip自动分配snmp:161端口,简单网络管理协议dns:53端口,域名解析协议,记录域名与ip的映射关系tcp:可靠的传输层协议udp:不可靠的传输层协议ICMP:因特网控制协议,ping命令来自于此igmp:组播协议ARP:地址解析协议,ip转换mac地址rarp:反向地址解析协议

2022-01-14 17:43:37 1300

原创 通过hive底层执行过程排查hsql执行问题

众所周知,hive是执行在Hadoop集群上的数据仓库工具,它会将数据映射成表格的方式,以类似sql的语句执行mapreduce。那么,具体执行过程怎么转换成mapreduce任务的呢?首先 我们要清楚hivesql的执行顺序:第一步:执行FROM 第二步:WHERE条件过滤,and 比or的优先级高 第三步:GROUP BY分组 第四步:执行SELECT投影列 第五步:HAVING条件过滤 第六步:执行ORDER BY 排序然后,比较重要的一点就是怎么运行的了,简单来说产生需要

2021-12-29 17:51:34 992

原创 解决问题:Cannot modify mapreduce.job.reduces at runtime. It is not in list of params that are allowed to

用beeline连接hive的时候,发现任务总是抢占不到资源,增加:set mapreduce.job.reduces=60;但是返回:Error while processing statement: Cannot modify mapreduce.job.reduces at runtime. It is not in list of params that are allowed to be modified at runtime看到大多数人的解决方式都是修改hive-site.xml,然后重

2021-12-23 15:15:52 3212

原创 解决Spark GraphX报错: java.lang.ArrayIndexOutOfBoundsException: -1

看很少有博客说这种问题,那我就分享一下踩坑记录吧~首先说一下解决方法:增加executor的内存资源:--executor-memory最近用spark做了一个有关风险传导的算子,其中调用了GraphX进行计算,测试时用的数据量比较少,所以没有意外地执行完毕了。但是在数据量增加之后,首先报了shuffle读写不平衡的错,这是在图计算中产生的大量shuffle和资源配置不平衡导致的,了解spark的童鞋都清楚,调整资源就可以解决。但是在调整资源之后,又报了个错:java.lang.ArrayI..

2021-12-20 15:29:36 3889

原创 es在hive建外表报错:Cannot detect ES version

在hive建es外表时遇到了一个错误:在建表语句中增加参数'es.nodes.wan.only' = 'true'之后还是报同样的错误。可是按理说之前在相同集群建es外表时候没有出现这样的错误。进入hive 的debug模式:hive -hiveconf hive.root.logger=DEBUG,console可以看到日志输出:Unsupported/Unknown Elasticsearch version 6.8.2想到可能是因为elasticsearch-hado..

2021-08-28 18:01:04 1989

原创 sql优化之-------spark实现hql时发现的order by、sort by 性能问题

1.删除分区ALTER TABLE my_partition_test_table DROP IF EXISTS PARTITION (p_loctype='MHA');2.显示分区:show partitions driver_ride_info3.动态插入分区insert overwrite table loan_f_milestone partition(day)select *,to_date(atv_tim)报错日志:Error: Java heap space

2021-08-12 09:45:09 1272

原创 软件测试方法

过程能力成熟度模型描述了软件处理能力的5个成熟度级别:

2021-08-10 14:34:02 96

原创 AST 抽象语法树

一、什么是抽象语法树在计算机科学中,抽象语法树(abstract syntax tree或者缩写为AST),或者语法树(syntax tree),是源代码的抽象语法结构的树状表现形式,这里特指编程语言的源代码。树上的每个节点都表示源代码中的一种结构。之所以说语法是「抽象」的,是因为这里的语法并不会表示出真实语法中出现的每个细节。二、使用场景JS 反编译,语法解析 Babel 编译 ES6 语法 代码高亮 关键字匹配 作用域判断 代码压缩...

2021-06-17 14:17:44 135

原创 sqoop导数据:hive to oracle

利用sqoop 从hive导数据到oracle可以分为两步:—hive导出数据到hdfsinsert overwrite directory "/home/hadoop/data/"ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' select {hive表字段} from stg.{hive表名};## —hdfs to oraclesqoop export --connect jdbc:

2021-05-26 15:16:02 1121 4

原创 死锁问题---循环等待现象

死锁是指多个进程互相等待对方资源,在得到对方资源之前又不释放资源的现象。如果进程在等待一个不可能事件,就会陷入死锁。一个或多个进程死锁,就会导致系统死锁。1.银行家算法---在分配资源之前先判断是否会导致系统死锁银行家算法思想原则:(1)一个进程对资源的最大需求量 <= 系统资源数 时,接纳该进程;(2)进程可以分期请求资源,但是请求次数不能超过最大需求量;(3)当现有资源不能满足进程尚需资源数时,对进程的请求可以延迟分配,但总能在有限的时间内分配资源;..

2021-03-11 09:32:19 1867 1

原创 处理器管理----信号量与pv操作

1.进程(1)三态模型----假设所有的进程都在内存中运行态:占用处理器正在运行就绪态:具备运行状态,等待处理器分派处理器运行等待态(阻塞态):不具备运行状态,等待一个事件运行完成(2)五态模型(部分进程挂,对换到镜像磁盘中)2.信号量与pv操作---有效处理进程关系信号量:一种特殊的变量,表现形式是一个整型S和队列p操作:S=S-1,若s<0,进程暂停执行,进入等待队列v操作:S=S+1,若s<=0,唤醒等待队列的一个进程..

2021-02-22 15:16:16 151

原创 1.操作系统---计算机系统中的核心系统软件

1.操作系统的类型【根据使用环境和对作业的处理方式划分】1.批处理操作系统:用户脱机使用计算机 成批处理 多道程序运行- 联机批处理- 脱机批处理2.分时操作系统:会话控制特性:交互性 多用户同时性 独立性3.实时操作系统:即时响应 高可靠性- 实时过程控制- 实时信息处理4.网络操作系统 :按照网络架构的各个协议标准进行开发特性: 互操作性 、协作处理5.分布式操作系统:一个统一的操作系统 进行资源分配和调度操作系统的基本功能【共性】处理机管理储存管理文件管理作业管理设

2021-02-19 17:19:16 2423 3

原创 问题处理----crontab执行python脚本报错

这里写自定义目录标题crontab执行python脚本crontab执行Python脚本报错crontab执行python脚本有些时候周末或者节假日需要临时执行一些临时任务,这时候就需要crontab出场啦~crontab查看:crontab -l 编辑:crontab -e依次是:min h day month 周几 programeg:27 18 6-8 11 5-6 sh xxx.sh执行Python脚本报错我手动执行时成功,但是加进定时执行任务时报错:找不到xxx的

2020-11-09 15:30:11 293

原创 redis过期数据删除-------del

1、删除所有的key,可以使用redis自身的命令:flushdb 删除当前数据库中的所有Key flushall 删除所有数据库中的key 2、使用linux中的xargs来删除所有的keyredis-cli keys "*" | xargs redis-cli delnote:之所以能用到xargs这个命令,关键是由于很多命令不支持|管道来传递参数,而日常工作中有有这个必要,所以就有了 xargs 命令,例如:find /sbin -perm +700 |ls -l...

2020-05-22 19:02:38 570

原创 innodb引擎mysql磁盘存储优化

思路:1) 清理不需要的数据2) 考虑将大表迁移至tidb1.查找大表:SELECT TABLE_NAME,data_free,index_length,concat(round(sum(data_length/1024/1024/1024),2),'GB') as dlFROM `TABLES` GROUP BY TABLE_NAMEhaving sum(data_length/1024/1024/1024)>2ORDER BY DATA_LENGTH DESC《阿里巴巴

2020-05-13 17:17:11 180

原创 数据结构---多路平衡查找树B-tree

B-tree 可以拥有2个以上的节点,是一棵**多路平衡查找树**。广泛应用于**数据库索引**和**文件系统**中。

2020-05-13 17:07:22 254

原创 ssh 免密登录问题解决-permission denied

免密登录设置过程1.在AB两台机器上分别运行ssh-keygen生成秘钥对2.第一步会生成一个文件夹:.ssh文件夹中有公钥文件:id_rsa.pub私钥文件:id_rsa如果 文件夹已经有authorized_keys 文件,则将双方公钥分别添加到authorized_keys文件中如果没有 就先创建文件:touch authorized_keys...

2019-10-09 18:08:07 1295

原创 HIVE SQL优化

SQL的执行顺序:第一步:执行FROM 第二步:WHERE条件过滤 第三步:GROUP BY分组 第四步:执行SELECT投影列 第五步:HAVING条件过滤 第六步:执行ORDER BY 排序Hive优化策略:1. 去除查询中不需要的column2. Where条件判断等在TableScan阶段就进行过滤3. 利用Partition信息,只读取符合条件的P...

2019-06-10 11:23:38 108

原创 代码版本控制Git常用命令-1

1.查询 查看当前状态 :git status git status命令可以让我们时刻掌握仓库当前的状态,上面的命令输出告诉我们,backend/modules/mbox/controllers/test.php被修改过了,但还没有准备提交的修改。2.查看文件具体更改内容:git diff这里的diff 是different的简写。即通过这个命令可以具体查看文件的更改...

2019-05-29 18:23:57 117

原创 PHP 数组array使用

简单记录一下PHP中的数据类型1.array①向数组中添加键值对array_push() :$data = array();$data = array_push($data, array(‘mykey’=>’myvalue’));$data[$key] = $value;②获取数组长度count($data) sizeof($data)以上两种方法都可以使用...

2019-05-27 16:31:40 840

原创 hive窗口函数------- over()

功能:既能显示聚合前的数据 ,又能显示聚合后的函数执行顺序:最后一步执行 ,仅仅位于order by 之前 select查询中 存在多个窗口函数时 他们之间是没有影响的,每个窗口应用自己规则函数内容: over():partition by :分组(在分组内进行操作)。order by :默认从起点行到当前行。eg:sel...

2019-05-08 17:08:31 294

原创 Cassandra查询

Cassandra底层与hbase相似,但是 它可以用SQL进行查询 ,基本查询就不详细去说了,这里记录一下,关于索引、主键的一些查询语句。查询索引:String query = String.format("select options from system_schema.indexes where table_name = '%s' ALLOW FILTERING",tableN...

2019-04-22 18:03:24 1573

原创 flink SQL 外关联

最近flink 因为 其吞吐量 ,exactly once 特性 比较热门 ,尤其是 flink SQL 的易于管理 和 复用的特点 ,都使得大数据团队最近更加喜欢选择flink 进行数据处理 分析等,其他的优势就不一一对比了,下面记录一下我用flink sql遇见的一个小问题。flink SQL的底层解析用的是apache calcite , hive SQL 也用的calcite解析,因此...

2019-04-22 13:28:44 645

原创 scala基础入门----简单介绍

scala是一种纯正的面向对象的可伸缩的函数式语言 ,它可以与Java语言无缝互操作。那么,什么是函数式语言呢?这里就要引出函数式语言的几个重要的特点:①纯函数(pure function)/函数的纯粹性函数的纯粹性是指没有副作用scala就是纯函数编程范式,即一切都是计算,函数式编程中只有表达式,变量、函数都是表达式。②引用透明对于相同的输入总是得到相同的输出如果一个函数是引用透...

2018-11-30 13:31:32 113 2

转载 storm各组件特点

1.*spout—–数据源(吐数据进入拓扑)*<1>可以一次向多个流吐数据。此时需要OutputFieldsDeclarer中的declareStream函数来声明多个流,并在调用 SpoutOutputCollecter的emit方法指定元组(tuple)吐给哪个流(streams)。eg://声明流public void declareOutputFields(OutputFieldsD

2017-12-01 18:33:26 230

原创 storm 测试

storm可以在本地测试,也可以向集群提交。 1.本地模式 : LocalClusterLocalCluster cluster = new LocalCluster(); cluster.submitTopology("storm_wordcount", conf, builder.createTopology()); Thread.sleep(300000); // 5分钟后自动结束

2017-12-01 16:59:34 600

louvain算法分享ppt

lovain原理分享ppt

2022-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除