diggerTT-CSDN博客

原创理工学---系统平台---数据平台---ubuntu16.04下hadoop-2.7.4搭建

一、准备好ubuntu系统方法参照我之前的《windows系统下安装ubuntu双系统》二、准备好java环境ubuntu16.04系统没有安装java JDK，直接官网下载，选择Linux x64版本；解压至目标位置，我的一些软件基本安装至/usr目录。并设置好环境变量。

2019-05-09 19:25:07 2871 1

原创理工学---系统平台---运维平台---linux命令集(二)

CentOS7.x系统根目录分区扩容说明：系统版本为 Linux version 3.10.0-327.el7.x86_64step1. 查看现有磁盘信息，可以看出根分区有45G[root@DEV-CMDB-DB02 ~]# df -hFilesystem Size Used Avail Use% Mounted on/dev/ma...

2019-04-02 11:08:25 3341 1

原创平台搭建---hadoop生态的用户权限控制问题

在程序中指定Spark和Hadoop的用户SparkSQL利用HDFS的权限控制表的读权限大数据安全：Ranger与Sentry使用区别Apache Ranger：统一授权管理框Apache Ranger剖析：Hadoop生态圈的安全管家...

2018-12-01 17:09:39 716

原创数据基础---postgresql和greenplum的使用

PostgreSQL 临时表PostgreSQL 临时表PostgreSQL 之 with查询create temp table countsXXX with (appendonly=true,compresstype=quicklz) on commit drop as select XXX,YYY,count(*) as countXXX from temp.table_Z grou...

2018-12-01 11:14:23 1744

原创数据挖掘工具---流式处理---storm 教程

来源：当storm遇上pythonstorm是什么他的官方文档是这样介绍的Storm is a distributed realtime computation system.关键词：分布式、实时、计算你什么时候需要storm当你有海量数据需要进行实时处理的时候，在这种场景下你往往需要利用到多台机器，而且让你关注的某一类数据按一定的规则路由到确切的节点，从而实现对信息流（往往需是...

2018-10-25 11:11:35 2161

转载数据基础---《利用Python进行数据分析·第2版》第12章 pandas高级应用

之前自己对于numpy和pandas是要用的时候东学一点西一点，直到看到《利用Python进行数据分析·第2版》，觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...

2018-10-19 21:21:04 479 1

转载数据基础---《利用Python进行数据分析·第2版》第6章数据加载、存储与文件格式

之前自己对于numpy和pandas是要用的时候东学一点西一点，直到看到《利用Python进行数据分析·第2版》，觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...

2018-10-19 17:24:05 2090

转载数据基础---《利用Python进行数据分析·第2版》第11章时间序列

之前自己对于numpy和pandas是要用的时候东学一点西一点，直到看到《利用Python进行数据分析·第2版》，觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...

2018-10-17 23:16:35 1474 1

转载数据基础---《利用Python进行数据分析·第2版》第10章数据聚合与分组运算

在

2018-10-17 23:15:35 820

转载数据基础---《利用Python进行数据分析·第2版》第8章数据规整：聚合、合并和重塑

之前自己对于numpy和pandas是要用的时候东学一点西一点，直到看到《利用Python进行数据分析·第2版》，觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...

2018-09-30 14:46:43 1874

转载数据基础---《利用Python进行数据分析·第2版》第7章数据清洗和准备

要

2018-09-29 13:05:58 931

原创编程基础---不同编程语言学习---不同编程语言的区别

全面梳理SQL和NoSQL数据库的技术差别

2018-09-05 17:22:20 1221

转载项目实例---金融---用机器学习构建模型，进行信用卡反欺诈预测

来源：用机器学习构建模型，进行信用卡反欺诈预测反欺诈中所用到的机器学习模型有哪些？Logistic Regression SVMs Decision trees

2018-07-07 11:47:01 5607

原创平台搭建---kafka使用---基本使用

主要是记录默认端口应用名称识别码应用类型协议和端口描述 pop3邮件 5 普通应用 TCP:110 pop3邮件 ftp-data 20 ftp数据端口 ftp 21 文件传输协议（FTP）端口；有时也被文件服务协议（FSP）使用 ssh 22 安全S...

2018-06-28 14:34:45 3063

转载平台搭建---Kafka使用---Kafka客户端是如何找到 leader 分区的

来源：2017-07-28 21:07:05 在正常情况下，Kafka中的每个Topic都会有很多个分区，每个分区又会存在多个副本。在这些副本中，存在一个leader分区，而剩下的分区叫做 follower，所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候，必须先找到对应分区的Leader及其所在的Broker地址，这样才可以进行后续的...

2018-06-28 14:17:27 2993

转载平台搭建---Kafka使用---Kafka监控工具KafkaOffsetMonitor配置及使用

来源　　KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具，其配置和使用特别的方便。源项目Github地址为：https://github.com/quantifind/KafkaOffsetMonitor。　　最简单的使用方式是从Github上下载一个最新的KafkaOffsetMonitor-assembly-0.2.1.jar

2018-06-27 10:39:41 1356

原创平台搭建---Kafka使用---Kafka重复消费和丢失数据

来源1、Kafka保证数据不丢失的原理1.1、kafka消息的位置用好Kafka，维护其消息偏移量对于避免消息的重复消费与遗漏消费,确保消息的Exactly-once是至关重要的。 kafka的消息所在的位置Topic、Partitions、Offsets三个因素决定。 Kafka消费者消费的消息位置还与consumer的group.id有关。 consumerOffse

2018-06-27 10:30:53 39423 4

原创平台搭建---大数据框架---RPC 框架

主成分分析原理scikit-learn 中PCA类介绍来源官网链接在scikit-learn中，与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA，我们下面主要也会讲解基于这个类的使用的方法。除了PCA类以外，最常用的PCA相关类还有KernelPCA类。它主要用于非线性数据的降维，需要用到

2018-06-08 20:45:55 1220

原创平台搭建---大数据框架---分布式搜索引擎与面向文档数据库（lucene、elasticsearch、Nutch、Solr）

Lucene学习思维导图分词流程图分词器的类型分词过滤器类型分词结果输出

2018-06-07 14:28:47 733

原创数据基础---josn格式数据相关操作

java中josn格式数据相关操作

2018-05-22 17:06:16 1190 1

原创编程基础---Echarts前端后台的贯通写法

1、编写前端显示页面&amp;amp;amp;lt;html lang=&amp;amp;quot;zh-CN&amp;amp;quot;&amp;amp;amp;gt;&amp;amp;amp;lt;head&amp;amp;amp;gt; &amp;amp;amp;lt;meta http-equiv=&amp;amp;quot;Content-Type&

2018-05-22 17:04:01 534

原创平台搭建---不同应用端口使用情况

1、kafka的安装与测试参考相关部分

2018-05-16 10:45:06 690

转载编程基础---echarts学习

官网1、5 分钟上手 ECharts获取 ECharts 你可以通过以下几种方式获取 ECharts。从官网下载界面选择你需要的版本下载，根据开发者功能和体积上的需求，我们提供了不同打包的下载，如果你在体积上没有要求，可以直接下载完整版本。开发环境建议下载源代码版本，包含了常见的错误提示和警告。在 ECharts 的 GitHub 上下载最新的 release 版本，解压出来

2018-05-12 10:00:09 7496 1

转载编程基础---java Servlet 学习

来源1 来源2 来源3 Servlet 为创建基于 web 的应用程序提供了基于组件、独立于平台的方法，可以不受 CGI 程序的性能限制。Servlet 有权限访问所有的 Java API，包括访问企业级数据库的 JDBC API。在阅读本教程之前，需要先了解 Java Servlet 框架和它的 API。1、Servlet 简介Servlet是什么？简单地说，它就是一个java程序，是一个运

2018-04-23 17:17:01 6048 1

原创编程基础---不同编程语言学习---让程序跑起来

python版#hello.pydef sayHello(): str=&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;Hi!&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot; print(str);if __name__ == &amp;amp;amp;amp;amp;amp;

2018-04-03 20:44:39 1154

原创平台搭建---大数据框架---大数据组件的安装及部署

zookeeper 分布式集群的安装与配置来源 Zookeeper 集群是分布式集群的协调者，也就是任意的分布式集群都能配置Zookeeper集群作为管理者、协调者，Zookeeper 集群在配置时一般采用的是奇数个节点配置的策略。

2018-04-01 23:43:23 7505

原创理工学---算法模型---树相关---Boosting 相关知识

boosting 是一种将弱分类器转化为强分类器的方法统称。adaboost是其中的一种，采用了exponential loss function（其实就是用指数的权重），根据不同的loss function还可以有其他算法，比如L2Boosting, logitboost…Boosting 是一种将弱分离器组合起来形成强分类器的算法框架

2018-03-31 19:01:48 663 1

原创理工学---算法模型---聚类分析之DBSCAN密度聚类算法

来源 DBSCAN(Density-Based Spatial Clustering of Applications with Noise，基于密度的抗噪聚类方法)。和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。 1. 密度聚类原理 DBSCAN是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的

2018-03-27 23:41:48 10046 1

原创编程基础---程序运行中的异常处理

1、python程序的异常处理资料来源1，资料来源2 对于pyhton程序中可能出现的异常问题，可用如下的结构来处理try: 语句1 语句2 ... 语句Nexcept ...: 异常处理逻辑但是我们无法预测语句1到语句N哪个地方会出现问题，会出现什么样的问题，会有什么样的异常返回值。下面有三种处理方式：方式一：捕获所有异常try

2018-03-01 20:34:40 473

原创编程基础---shell编程

内容来源1、基础概念什么是shell编程？用该作者的话讲：shell编程就是对一堆linux命令的逻辑化处理。 shell编程的好处：我们完成一项任务的时候，一般会涉及到一系列步骤，比如先执行某个文件，得到中间结果，然后我们再执行另一个程序（上一步的结果作为这里的输入），等等，每次执行该任务的时候都要进行这一系列的操作，甚至涉及到一些软件的启动。在linux下我们可以将这一系...

2018-03-01 09:59:39 3650 1

原创编程基础---不同软件中的条件分支、循环和跳出

1、python中的条件分支、循环和跳出1.1、条件分支if,elif,else，没有swith和case用法if 条件表达式 : 处理程序if 条件表达式: 处理程序1else: 处理程序2if 条件表达式1: 处理程序1elif 条件表达式2: 处理程序2…else: 处理程序n空的列表、元组、字符串、0、none都作为FALSE1.2、循

2018-02-22 10:08:58 334

原创理工学---数据基础---大数据---数据挖掘工具---Spark SQL使用

pyspark.sql

2018-02-07 15:18:37 3808 1

原创理工学---数据基础---大数据---pyspark使用方法练习

来源，官网spark1.6.1版本

2018-02-04 10:17:46 11317 2

原创理工学---系统平台---数据平台---平台搭建---spark生态版本问题

pyspark采用python3开发python版本3.5支持pyspark python3.6目前还不支持做法简单，只需要在bin/pyspark中增加export PYSPARK_PYTHON=python3再次打开bin/pyspark即配置完成pyspark采用python3. 如果想使用ipython，则增加下面两行到bin/pyspark中export PYSPARK_PYTHO

2018-01-31 09:24:14 1224 1

原创理工学---数据基础---大数据---数据挖掘工具---spark使用相关资料

这里列举的都spark1.6.1版本下的相关资料，其他版本只要在链接里改一下版本号即可。spark使用快速预览，地址；官网spark总的介绍资料，地址；spark集群模式介绍，地址；如何向spark集群提交应用程序，地址；如何在yarn模式下向spark集群提交应用程序，地址；python语言进行spark编程的pyspark库的相关接口地址；pyspark库相关类的源

2018-01-28 15:46:48 548 1

原创理工学---数据基础---大数据---Spark SQL 中的结构化数据

来源《Spark快速大数据分析》1、结构化数据Spark SQL 是在 Spark 1.0 中新加入 Spark 的组件,并快速成为了 Spark 中较受欢迎的操作结构化和半结构化数据的方式。结构化数据指的是有结构信息的数据——也就是所有的数据记录都具有一致字段结构的集合。Spark SQL 支持多种结构化数据源作为输入,而且由于 Spark SQL 知道数据的结构信息,它还可以从这些数据源中只读

2018-01-22 09:16:22 1641 1

原创理工学---数据基础---大数据---Spark Submit提交应用程序及yarn

本部分来源，也可以到spark官网查看英文版。使用spark-submit时，应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spark-submit --class --master --jars Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序，它通过统一接口使用Spark所支持的所有集群管理器，因此无需特殊配置每一个

2018-01-19 09:59:03 25230 1

转载平台搭建---Hive使用介绍

文章来源1、Hive简介Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用戶查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu

2018-01-19 09:14:19 6269

原创理工学---算法模型---时间序列模型

1、时间序列时间序列是时间间隔不变的情况下收集的不同时间点数据集合，这些集合被分析用来了解长期发展趋势及为了预测未来。时间序列与常见的回归问题的不同点在于: 1、时间序列是跟时间有关的;而线性回归模型的假设：观察结果是独立的在这种情况下是不成立的。 2、随着上升或者下降的趋势，更多的时间序列出现季节性趋势的形式；常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。2、时间

2018-01-16 09:04:58 86666 3

原创理工学---编程基础---R语言---R语言的安装和使用

1、R的安装1.1、windows下R的安装一、到官网下载对应版本的R内核，如R-3.3.3-win.exe，然后直接安装即可。二、到官网下载对应版本的RStudio，如RStudio 1.1.383.exe，直接安装。为了便于管理RStudio可和R内核安装在一个文件夹内。这样便可以在RStudio的集成开发环境下利用R进行数据挖掘了。

2018-01-07 18:13:39 9728 1

空空如也

空空如也