matlab内存映射文件操作

日常我们使用matlab进行模型训练,每次训练需要加载的数据都是比较大,都是千万级别的数据,如果从txt或者csv中读取,需要很长时间,这样很影响读取数据的效率。matlab有自己的方式,将数据文件快速加载到内存中。 写文件: file = fopen('E:\数据分析\login_0000...

2019-09-09 16:34:24

阅读数 4

评论数 0

关于multiprocessing的Queue效率问题

今天大半天都在折腾着一个问题,就是从kafka消费消息后,后面的业务处理一直处理不过来,总是延后几个小时。为了解决这个问题,不断去调试代码,查找到相对耗时的位置,最终定位是Qeueue的问题。先上一段简化版的代码。 #!/usr/bin/env python #-*- coding:utf-8...

2019-08-28 16:38:07

阅读数 21

评论数 0

在unbutu上通过man查看C++标准函数库

在职业生涯初期养成的习惯,所有不清楚的函数用法都问下度娘或者google。除了常用的unix系统的标准函数是通过man进行查询,很少使用man函数去查询标准函数库的函数。今天不知为什么心血来潮,很长一段时间也没有写过C++的代码了(最近几个月都是做着数据分析,都是使用python),今天突然想用C...

2019-08-23 15:36:28

阅读数 7

评论数 0

kafka的应用场景

kafka作为一个消息流处理平台。很多开发人员都作它作为一个生产&消费的中间件,并没有细细去思考kafka可以在哪些应用场景中使用,下面根据我的经验,总结下kafka可以应用在以下场景中。 消息队列 这种场景是日常用得最多之一。我日常需要将多台服务器上的日志集中收集到一个点...

2019-08-14 20:43:15

阅读数 14

评论数 0

IntelliJ IDEA下构建kafka环境与源码编译

最近希望深入研究下kafka的架构,想了解架构必须去阅读其源码。于是自己动手在IDE下构建一个可运行可调试的kafka环境,下面是构建kafka环境及编译源码。 一、安装jdk C:\Users\Administrator>java -version java version ...

2019-08-12 17:21:52

阅读数 28

评论数 0

ubuntu上构建jupyter notebook环境

安装conda 在anaconda官网下载https://www.anaconda.com/distribution/,我下载的是Anaconda3-2019.03-Linux-x86_64.sh安装包。在ubuntu终端上直接执行shAnaconda3-2019.03-Linux-x86_64...

2019-05-21 16:12:53

阅读数 50

评论数 0

使用flask实现restfulapi

今天早上想快速实现几个临时使用的http接口,供其他人调用,之前都是使用java去写的,最近因为都玩着python,第一时间想到使用flask去实现试试,也体验下flask轻量级的框架。 在https://flask-restful.readthedocs.io/en/latest/上快速过了一...

2019-05-09 11:39:05

阅读数 25

评论数 0

softmax函数python实现

在实现一个神经网络项目落地代码,使用matlab训练完后,为了配合其他问题,使用python进行落地,实现DNN的正向计算,在网上看了一大堆softmax函数的实现,发现所有人都是单样本去计算或者循环去计算矩阵,心里默默吐槽,怎么都是这样写,就不能来个正常的例子,一行行这样算都提高不了效率。看来c...

2019-04-30 18:35:23

阅读数 124

评论数 0

在spark中通过UDF转字符串ip

今天在spark中需要将字符型(String)的ip转化为长整型(long)的ip,参考了两篇文章https://blog.csdn.net/cjuexuan/article/details/54912215和https://blog.csdn.net/key_xyes/article/detai...

2019-03-13 16:06:42

阅读数 62

评论数 0

关于spark.sql.autoBroadcastJoinThreshold设置

今天使用spark对一组大数据进行合并作join操作,一直都报下面的错: Exception in thread “broadcast-exchange-0” java.lang.OutOfMemoryError: Not enough memory to build and broadcast...

2018-11-05 17:30:09

阅读数 2870

评论数 0

银行业密钥体系概述

银行业的密钥体系是个很庞大的体系,其覆盖不同的密码学算法及适应不同的业务场景。一方面保证银行的数据安全性,另一方面适应业务的变化且易于理解和使用。银行业的密钥体系与银行监管制度是紧密相关的,密钥体系保证银行内各个业务环节的安全性,而银行监管制度保证密钥体系能够有效地执行,最终依靠对操作人员进行监管...

2018-10-30 09:58:29

阅读数 615

评论数 0

spark以standalone运行时的日志清理

spark运行任务的日志一直没太大关注,原因是硬盘资源充足,除非任务出错时才去看一下,但没有清理这些日志的习惯。直到最近遇到的一个问题是,硬盘资源严重缺乏,不得不需要定时去清理日志。 第一时间去看下spark本身的配置,是否支持定时清理日志的选项,毕竟spark那么成熟,相信很多人都面临过这样的...

2018-10-29 21:23:12

阅读数 250

评论数 0

关于spark以parquet写入时的小问题

今天使用spark对一个dataframe中的数据以某一个为主键做groupby进行求和,数据类似如下: scala> userDF.show +---------+--------+ | userid | count | +--------+---------+ | 11...

2018-10-17 18:02:29

阅读数 556

评论数 0

maven本地jar包导入

今天用到第三方一个库,在spark中将数据导入到hbase,使用了shc-core,但将maven配置上去无法下载,那只能另找方法了。先从https://mvnrepository.com/artifact/com.hortonworks/shc-core/1.1.1-2.1-s_2.11好面将j...

2018-08-13 14:52:59

阅读数 166

评论数 0

PCA降维

关于PCA算法在机器学习中是经常会用到,特别在维度数比较大的情况下,为了提取主要的维度成分,使用PCA对维度进行降维操作,一方面在保证数据高精确性情况下,另一方面减少维度数量,降低由于维度带来的运算资源的消耗及运算的时间消耗 。PCA能够有效解决因维度带来的灾难。 关于PCA的原理在很多书本、博...

2018-08-09 14:56:35

阅读数 131

评论数 0

spark环境构建

spark是个分布式运算平台,在火热的大数据时代,很多企业很多场景都使用spark作为运算平台。一方面是其在计算的高效性,另一方面是其稳定性。官网有个很形象的说明,spark的运算效率是hadoop运算效率的100倍以上。广泛被运用在各种场景中,原因spark支持很多语言的接口:java、scal...

2018-08-08 22:22:28

阅读数 56

评论数 0

logstash的logstash-output-jdbc插件安装

突然来的一个需求,将日志文件中json串的内容写入到数据库中,作为一个偷懒coder,第一个时间想到就是偷懒的做法:将logstash扫描的结果直接输入到mysql库表中。 关于logstash的安装就不再详述,后面如果写安装的介绍时再回头补充链接,我安装的logstash版本是5.6.6。 ...

2018-08-02 17:52:54

阅读数 2644

评论数 5

python的re模块

正则表达式是我们日常编程经常使用到的,运用检索或替换字符串中匹配的子串。对于python语言来说,已有基础的正则表达式模块(即re模块),当然还有其它第三方的正则表达式模块,通常第三方的正则表达式模块也包含re模块中实现的所有API接口。 在我们解释API之前,我们先简单了解python的正则表...

2018-07-26 22:35:27

阅读数 54

评论数 0

elasticsearch的head插件安装与使用

为了增强对elasticsearch集群的管理与操作,在社区存在很多相关的插件,其中head插件是其中应用得最广泛的插件之一。head插件一方面可以查看到集群的状态,同时可以对集群上的索引进行管理,包括增加索引、删除索引、对索引数据进行基础查询和复合查询等。 head下载插件:https://g...

2018-07-23 14:47:28

阅读数 211

评论数 0

elasticsearch集群环境构建

前面已经简单介绍过单节点elasticsearch环境的构建,单节点的elasticsearch既充当master也充当data node。集群环境的节点可根据需要将不同节点设置成不同的服务功能。elasticsearch节点类型的配置在官网上有详细的说明(https://www.elastic....

2018-07-20 11:24:31

阅读数 66

评论数 0

提示
确定要删除当前文章?
取消 删除