老张去哪儿-CSDN博客

原创 [SNA社会网络分析]基于R的ndtv、network包实现社会网络动态可视化

本文所涉及的内容是在做传染病领域的科研时做的一些探索性的工作，肯定还是有一些不完善的地方，欢迎讨论。本文最终的目的是实现一个社会网络的动态演变过程，如下图所示，这是程序最终生成的视频，导出的一小段GIF。照惯例推荐几篇非常好的参考文章，建议均至少通读一遍：1.http://statnet.csde.washington.edu/workshops/SUNBELT/current/...

2018-08-10 00:31:07 4755

原创基于ELK Stack和Spark Streaming的日志处理平台设计与实现

大数据时代，随着数据量不断增长，存储与计算集群的规模也逐渐扩大，几百上千台的云计算环境已不鲜见。现在的集群所需要解决的问题不仅仅是高性能、高可靠性、高可扩展性，还需要面对易维护性以及数据平台内部的数据共享性等诸多挑战。优秀的系统运维平台既能实现数据平台各组件的集中式管理、方便系统运维人员日常监测、提升运维效率，又能反馈系统运行状态给系统开发人员。例如采集数据仓库的日志可以按照时间序列查看各数据库实

2015-10-13 15:55:53 6937

原创 [日志处理工作之七]Elasticsearch集群脑裂现象与保证可靠性的配置

昨天在导入数据的时候，数据量不是很大，八十几万个event，导入的过程中Kafka lag不断上升，elasticsearch开始无响应，master与slave断掉连接，重启后无法自动发现。查资料后得知这是elasticsearch的脑裂现象，这篇博客 http://m.blog.csdn.net/blog/huwei2003/47004745 提供了处理方案，按照他的说法，处理方式如下：

2015-08-27 13:12:09 1906

原创 [日志处理工作之六]kafka的分区策略 and 构建flume或logstash的采集与解析agent集群

Kafka的分区策略

2015-06-29 17:02:56 2318

原创 [统计模型] 基于R的潜在剖面分析(LPA)

本文主要介绍基于R进行潜在剖面分析(Latent Profile Aanalysis, LPA)。关于潜在类别分析LCA/潜在剖面分析LPA的概念和区别，可以参考一下这篇文章：潜在类别分析LCA \潜在剖面分析LPA介绍https://www.jianshu.com/p/4c830094131e?utm_campaign=maleskine但是此文对潜类别分析的阐释还比较生涩，而且没有具体的代码编写、模型优选等内容。本文旨在丰富LPA的内容，并希望和大家交流、共同进步。1. 什么是潜类别分.

2021-02-09 00:01:51 15590 6

原创整合Pubmed、Web of Science、 Embase和Scopus数据库的文献检索结果集建立Endnote数据库

本文主要聚焦于根据搜索条件从Pubmed、Web of Science、 Embase和Scopus上查询文献，并将题录信息和摘要导出，一并导入endnote形成自己的数据库，进而进行下一步的文献综述工作。本文使用的是endnote 20版本。本文假设你已经知道了要做文献综述的研究领域应该使用那些检索词，举个简单的例子，比如说我想做传染病模型领域的文献综述，确定了检索词"Infection"/"Infectious"/"model"/"simulation"，下面使用四个文献数据库提取文献。（当然Pub

2021-01-12 23:47:27 13755

原创基于Echarts的全球COVID-19(新冠肺炎)新增病例动态可视化

本demo主要目的是对全球的新冠病例新增数据进行动态可视化，底层用的是echarts [1]，数据来自Hopkins [2]。效果如下：首先看一下echarts代码的结构：<!DOCTYPE html><html><head> <meta charset="utf-8"> <title>ECharts</title>  <

2020-12-28 01:33:25 1416

原创 [日志处理工作之九]整合Spark SQL和Elasticsearch

本文使用的Spark版本是1.4.0，Elasticsearch版本是1.5.21.Elasticsearch对Spark的支持详见官网：https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html 官网的文档主要涉及Spark1.2中的RDD API、Spark1.3以上版本的Data Frame API，语言

2015-11-01 20:42:25 6343 1

原创 Eclipse Mars.1 整合 maven

1.下载的eclipse版本是这个2.下载apache-maven-3.3.3.zip添加JAVA_HOME环境变量 E:\Program Files\Java\jdk1.8.0_65解压maven并添加环境变量，在Path最后加入 E:\Program Files\apache-maven-3.3.3\bin打开cmd执行mvn -v

2015-10-23 12:36:35 3127

原创 [日志处理工作之八]日志处理架构

参考：http://mp.weixin.qq.com/s?__biz=MzA5OTAyNzQ2OA==&mid=207036526&idx=1&sn=b0de410e0d1026cd100ac2658e093160&scene=2&from=timeline&isappinstalled=0#rd参考： http://mp.weixin.qq.com/s?__biz=MzA5OT

2015-08-27 13:18:53 888

原创 [日志处理工作之五]整合logstash,kafka

整合logstash kafka

2015-06-29 17:02:07 3309

原创 [日志处理工作之四]从flume采集的event中提取能被kibana识别的时间戳 and 对比flume与logstash

1.extract timestamp field from eventsuse org.apache.flume.interceptor.RegexExtractorInterceptorMillisSerializer as the i1 interceptor's serializeragent.sources.source1.interceptors.i1.type=reg

2015-06-29 16:58:27 2794

原创 [日志处理工作之三]使用flume采集DB2日志推送到kafka，并使用spark streaming拉取指定topic的日志

实现了通过flume-ng将DB2日志推入Kafka，用spark streaming订阅kafka中相应的topic，将指定的信息，比如level级别是warning的，message发送给指定邮箱

2015-06-29 16:52:44 3132

原创 [日志处理工作之二]使用flume-ng解析db2日志的初步步骤

使用flume-ng解析db2日志的初步步骤

2015-06-29 16:51:11 1719

原创 [日志处理工作之一]整合elasticsearch,kibana,flume-ng,kafka实时采集tomcat日志

本文涉及的所有操作均在一个CentOS 6.5虚拟机内,部署成功后可供开发和测试使用各程序版本：apache-flume-1.7.0 apache-tomcat-7.0.27 elasticsearch-1.5.2 kafka_2.11-0.8.2.1 kibana-4.0.2 scala-2.11Step 1.关于flume：apache flume当前版本

2015-06-29 16:49:01 5881