平台搭建---电脑系统---ubuntu16.04下hadoop-2.7.4搭建 一、准备好ubuntu系统方法参照我之前的《windows系统下安装ubuntu双系统》二、准备好java环境ubuntu16.04系统没有安装java JDK,直接官网下载,选择Linux x64版本;解压至目标位置,我的一些软件基本安装至/usr目录。并设置好环境变量。
理工学---编程基础---linux命令集(二) CentOS7.x系统根目录分区扩容说明:系统版本为 Linux version 3.10.0-327.el7.x86_64step1. 查看现有磁盘信息,可以看出根分区有45G[root@DEV-CMDB-DB02 ~]# df -hFilesystem Size Used Avail Use% Mounted on/dev/ma...
平台搭建---hadoop生态的用户权限控制问题 在程序中指定Spark和Hadoop的用户SparkSQL利用HDFS的权限控制表的读权限大数据安全:Ranger与Sentry使用区别Apache Ranger:统一授权管理框Apache Ranger剖析:Hadoop生态圈的安全管家...
数据基础---postgresql和greenplum的使用 PostgreSQL 临时表PostgreSQL 临时表PostgreSQL 之 with查询create temp table countsXXX with (appendonly=true,compresstype=quicklz) on commit drop as select XXX,YYY,count(*) as countXXX from temp.table_Z grou...
数据挖掘工具---流式处理---storm 教程 来源:当storm遇上pythonstorm是什么他的官方文档是这样介绍的Storm is a distributed realtime computation system.关键词:分布式、实时、计算你什么时候需要storm当你有海量数据需要进行实时处理的时候,在这种场景下你往往需要利用到多台机器,而且让你关注的某一类数据按一定的规则路由到确切的节点,从而实现对信息流(往往需是...
数据基础---《利用Python进行数据分析·第2版》第12章 pandas高级应用 之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...
数据基础---《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式 之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...
数据基础---《利用Python进行数据分析·第2版》第11章 时间序列 之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...
数据基础---《利用Python进行数据分析·第2版》第8章 数据规整:聚合、合并和重塑 之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...
项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测 来源: 用机器学习构建模型,进行信用卡反欺诈预测 反欺诈中所用到的机器学习模型有哪些?Logistic Regression SVMs Decision trees
平台搭建---kafka使用---基本使用 主要是记录默认端口 应用名称 识别码 应用类型 协议和端口 描述 pop3邮件 5 普通应用 TCP:110 pop3邮件 ftp-data 20 ftp数据端口 ftp 21 文件传输协议(FTP)端口;有时也被文件服务协议(FSP)使用 ssh 22 安全S...
平台搭建---Kafka使用---Kafka客户端是如何找到 leader 分区的 来源:2017-07-28 21:07:05 在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候,必须先找到对应分区的Leader及其所在的Broker地址,这样才可以进行后续的...
平台搭建---Kafka使用---Kafka监控工具KafkaOffsetMonitor配置及使用 来源 KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具,其配置和使用特别的方便。源项目Github地址为:https://github.com/quantifind/KafkaOffsetMonitor。 最简单的使用方式是从Github上下载一个最新的KafkaOffsetMonitor-assembly-0.2.1.jar
平台搭建---Kafka使用---Kafka重复消费和丢失数据 来源1、Kafka保证数据不丢失的原理1.1、kafka消息的位置用好Kafka,维护其消息偏移量对于避免消息的重复消费与遗漏消费,确保消息的Exactly-once是至关重要的。 kafka的消息所在的位置Topic、Partitions、Offsets三个因素决定。 Kafka消费者消费的消息位置还与consumer的group.id有关。 consumerOffse
平台搭建---大数据框架---RPC 框架 主成分分析原理scikit-learn 中PCA类介绍来源 官网链接 在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA,我们下面主要也会讲解基于这个类的使用的方法。 除了PCA类以外,最常用的PCA相关类还有KernelPCA类。它主要用于非线性数据的降维,需要用到
平台搭建---大数据框架---分布式搜索引擎与面向文档数据库(lucene、elasticsearch、Nutch、Solr) Lucene学习思维导图 分词流程图 分词器的类型 分词过滤器类型 分词结果输出