chenbengang-CSDN博客

原创大数据-数据仓库Hive

数据仓库Hive一、Hive简介数据仓库：面向主题、集成的、相对稳定的、反应历史变化的数据集合，用于支持管理决策。传统数据仓库面临挑战：无法满足海量数据存储需求；无法有效处理不同类型数据；计算可处理能力不足。Hive满足上述挑战，且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。Hiv...

2020-05-07 16:49:40 434

原创大数据-MapReduce

大数据-MapReduce分布式并行编程传统的并行计算，共享型方案刀片服务器，适用于实时的细粒度计算，尤其是计算密集的应用。MapReduce扩展性好，节点普通pc也可，每个节点拥有自己的内存和空间，适用于非实时的批处理，以及数据密集型的应用。MapReduce模型复杂的计算过程高度抽象成两个函数，map和reduce。将庞大数据切片，对每个小片并行的单独使用map处理，计算向数...

2020-05-01 09:44:59 821

原创分布式数据库HBase

分布式数据库HBase一、HBase简介（基于bigtable）：bigtable的用处： bigtable支持pb级别数据，高可扩展性，可扩展到几千个服务器的分布式存储。存储非结构化和半结构化数据。bigtable的原理：HBase相比于关系型数据库具备自动分片能力、良好的水平可扩展性。二、HBase数据模型HBase由行键、列族，列限定符，时间戳四个元素组成。旧的版本保留，...

2020-02-21 16:50:57 423

原创分布式文件系统HDFS

hdfs相关概念namenode包括fsimage和editlog组成。fsimage：保存系统文件树，记录块大小及组成文件的块、访问权限、文件的复制等级、修改和访问时间。editlog：记录对数据的增删改查等操作。datanode：将数据保存到linux文件系统即可，负责存和取。至于块被放在哪个地方是由namenode构建清单，与datanode沟通。如果只有fsimage则运行过...

2020-02-11 15:45:59 566

原创 Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测

基于Hive和Spark的淘宝双11数据分析与预测1.系统和环境要求（版本仅供参考）：Linux: centos7MySQL: 5.7.16Hadoop: 2.7.1Hive: 1.2.1Sqoop: 1.4.6Spark: 2.1.0Eclipse: 3.8ECharts: 3.4.02.数据上传到Hive（Hive的安装配置）2.1数据集格式内容数据集压缩包为dat...

2020-01-17 16:26:50 11649 9

原创 Linux查看文件指定行数内容

Linux查看文件指定行数内容1、tail date.log 输出文件末尾的内容，默认10行 tail -20 date.log 输出最后20行的内容 tail -n -20 date.log 输出倒数第20行到文件末尾的内容 tail -n +20 date.log 输出第20行到文件末尾的内容 tail -f date....

2020-01-17 10:47:34 3493

原创 Spark大数据-Spark+Kafka构建实时分析Dashboard

Spark+Kafka构建实时分析Dashboard1.框架利用Spark+Kafka实时分析男女生每秒购物人数，利用Spark Streaming实时处理用户购物日志，然后利用websocket将数据实时推送给浏览器，最后浏览器将接收到的数据实时展现，案例的整体框架图如下：详细分析下上述步骤：应用程序将购物日志发送给Kafka，topic为”sex”，因为这里只是统计购物男女生人数，...

2020-01-17 10:19:10 2768

原创 Spark大数据-TMDB电影数据分析（spark-scala版）

TMDB电影数据分析（spark-scala版，pyspark版本）基于kaggle的TMDB电影数据集的数据分析，该数据集包含大约 5000 部电影的相关数据，TMDB数据下载。分析电影关键词的分布、电影投入以及收益评价等之间的关系，并使用Python web进行可视化。一.环境要求（仅供参考）centos7、hadoop、spark、bottle（一种基于Python的web框架）。二...

2020-01-16 16:29:08 9173 5

原创 Spark大数据-ml的逻辑斯蒂回归和决策树解决分类问题

ml的逻辑斯蒂回归和决策树解决分类问题1.逻辑斯蒂回归解决分类问题使用ml库的逻辑斯蒂回归解决鸢尾花的二分类问题：// 二分类逻辑斯地回归，只用两个属性长度和宽度import org.apache.spark.sql.Rowimport org.apache.spark.ml.linalg.{Vector,Vectors}import org.apache.spark.ml.eval...

2019-12-31 15:40:56 493

原创 Spark大数据-特征抽取CountVectorizer

特征抽取CountVectorizer// 通过计数将文档转化为向量的，产生文档关于词语的稀疏表示// CountVectorizer将根据语料库中的词频排序从高到低进行选择，词汇表的最大含量由vocabsize超参数来指定，超参数minDF，// 则指定词汇表中的词语至少要在多少个不同文档中出现import org.apache.spark.sql.SparkSessionval...

2019-12-31 10:43:26 516

原创 Spark大数据-特征抽取Word2Vec(Scala版)

特征抽取Word2Vecimport org.apache.spark.sql.SparkSessionval spark=SparkSession.builder().master("local").appName("word2vec").getOrCreate()import spark.implicits._import org.apache.spark.ml.feature.W...

2019-12-31 10:23:16 611

原创 Spark大数据-特征抽取TF-IDF

特征抽取TF-IDFimport org.apache.spark.ml.feature.{HashingTF,IDF,Tokenizer}import org.apache.spark.sql.SparkSessionval spark=SparkSession.builder(). master("local"). appName("TF-IDF-Test"). ...

2019-12-31 10:04:32 409

原创 Spark大数据-Spark MLib机器学习流水线Pipeline

Spark MLib机器学习流水线PipelineDataFrame作为基本的数据抽象。Transform：转化器，传入DataFrame转换成新的DataFrame。Estimator：评估器，fit训练得到模型。Pipeline：流水线，多步骤组合。构建Pipeline：// 构建一个机器学习工作流// 在原始DataFrame上调用Pipeline.fit（）方法，它具有原始...

2019-12-31 09:14:47 906

原创 Spark-Spark MLib简介

Spark MLib简介hadopp实现机器学习：MapReduce也可以编写机器学习，基于磁盘操作，多次迭代计算磁盘IO开销大。spark实现机器学习：spark是基于内存，只有shuffle操作需要落磁盘，实现管道化处理，在内存中完成数据交接。大大减少在磁盘的IO开销。基于MLib库。MLib包含：分类、回归、聚类、协同过滤、降维。特征化工具：特征提取、转化、降维、选择工具...

2019-12-30 17:17:15 3613

原创 Spark大数据-structured streaming

structured streaming概述structured streaming引入持续流处理模式，真正支持毫秒级别响应。spark streaming无法满足毫秒级响应。2.2正式发布。重新抽象流式计算，基于DataFrame数据抽象。易于exactly-once（所有数据只被处理一次），以前的spark为at-least once(所有数据至少处理一次)。1.structur...

2019-12-30 16:48:06 259

原创 Spark大数据-spark streaming输出操作

spark streaming输出操作其他部分与转换操作一样，只需要添加输出保存部分，保存为文件使用saveAsTextFiles，输出到mysql数据库。object NetworkWordCountStateful { def main(args: Array[String]) { //定义状态更新函数 val updateFunc = (values: Seq[Int...

2019-12-30 10:25:26 746

原创 Spark大数据-spark streaming转换操作

spark streaming转换操作1.无状态转换map操作：源为DStream，一次一对一转换。flatMap：一个输入映射成0或多个输出项。filter：过滤，满足条件的过滤出来。repartition：改变DStream用的分区数。reduce：提供聚合函数，进行聚合运算。count：统计源DStream中每个RDD的元素数量。union：合并多个DStream...

2019-12-28 20:04:08 510

原创大数据-ambari安装过程中的问题

1.解决安装ambari需要大于等于python2.6：centos7，安装配置好java环境。2.解决没有权限登录问题：先按照那两个博客配置好ssh localhost免密登录，再按照cnblogs的配置思路，有分布式的话，配置好分布式的免密登录问题。3.解决连接超时问题。...

2019-12-22 09:41:37 475

java反射在数据库上的应用一、java反射：1.在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法。 2.对于任意一个对象，都能够调用它的任意一个方法。这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。二、反射在数据库上的应用：传统的数据库操作代码为，每个表格创建dao类效率低。一个dao方法，四个方法操作，传入不同对象。反射机制用来做重复有规则事情。保存...

2019-12-20 09:44:57 375

原创 Spark大数据-输入源之kafka的spark streaming流处理

Spark大数据-输入源之kafkakafka相关基础高吞吐量的分布式发布订阅消息系统，能订阅和发布消息。broker：kafka集群中每个节点服务器叫broker。topic：消息扔给某个topic，订阅相关topic即可。partition：每个topic消息非常多，所以需要分区放在多台服务器上。生产者：把消息发给kafka broker。消费者：向kafka broker读...

2019-12-18 11:35:36 697

原创 Spark大数据-输入源之RDD队列流

Spark大数据-输入源之RDD队列流RDD队列流每隔一秒创建一个RDD扔到队列中，spark streaming每隔两秒从队列流中处理一次，对队列RDD中的每个数做余数词频统计。// 每隔1秒创建一个RDD，Streaming每隔2秒就对数据进行处理import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimpo...

2019-12-17 10:41:47 596

原创 Spark大数据-输入源之套接字流

Spark大数据-输入源之套接字流套接字流使用套接字流作为spark streaming数据源1.创建客户端文件目录cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir -p src/main/scala //如果已经存在该目录，则不用创建cd src/main/scalavim NetworkWordCoun...

2019-12-16 16:47:22 1006

原创 Spark大数据-输入源之文件流

文件流日志的实时捕捉：对目录进行监控，只要目录生成新的文件或者文件变动就捕捉。1.创建被监控的文件目录：cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir logfilecd logfile2.spark-scala文件监控程序-实现词频统计：import org.apache.spark._impor...

2019-12-16 11:45:29 638

原创 Spark大数据-Dstream概述

Dstream概述工作机制输入数据流的input Dstream和receiver挂接起来。1.创建输入Dstream定义输入源，文件流，kafka，rdd队列流。2.转换和输出操作定义流计算过程。3.StreamingContext.start()、awaitTermination()等待处理结束(发生错误结束)、stop()手动结束。// 创建StreamingContext...

2019-12-16 11:02:51 339

原创 Spark大数据-Spark Streaming

Spark Streaming输入输出源输入源：kafka、flume、hdfs、tcp socket。输出源：hdfs、databases、dashboards。Spark Streaming基本原理连续数据切分，每段数据交给spark处理批处理，每段批处理模仿流处理。Spark是线程级别并行，实时响应级别高。实现秒级响应，变相实现高效流计算。DStream：一堆的RDD。...

2019-12-16 11:02:33 86

原创 Spark大数据-Spark流数据概述

spark流数据概述1.两种典型数据2.流数据特征3.流计算概述1.两种典型数据静态数据和流数据2.流数据特征数据快速持续到达，潜在大小无穷无尽数据来源多，格式复杂数据量大注重数据整体价值顺序颠倒或不完整3.流计算概述批量计算，MapReduce 处理大规模静态数据，无法满足秒级响应。流计算框架，实时采集，实时分析处理，结果反馈。用户点击流实时分析，时间内结果有意义...

2019-12-16 11:02:03 417

原创在Android Studio中的res文件夹下新建含alpha的XML文件

首先，在project视图下，res目录下新建new->Directory命名为anim然后，在anim文件夹下new ->Animation resource file 如图可以选择根节点为alpha（透明度）当切换到android视图时，目录在res下正常显示(建议project视图)。

2016-02-15 22:01:41 3478

原创 invalidate()和postInvalidate() 的区别及使用

Android提供了Invalidate方法实现界面刷新，但是Invalidate不能直接在线程中调用，因为他是违背了单线程模型：Android UI操作并不是线程安全的，并且这些操作必须在UI线程中调用。 invalidate()是用来刷新View的，必须是在UI线程中进行工作。比如在修改某个view的显示时，调用invalidate()才能看到重新绘制的界面。invalidate()的

2015-10-05 17:42:38 395

原创 Android中图形与图像处理初见面——绘图

第一次见到Android绘图就发现其无非就是Canvas和Paint，也就是画布，和画笔，其中Canvas还用到了Path，Path代表任意多条直线链接而成的任意图形。以下为在应用程序中绘制几何图形，关键在于一个自定义的view组件MyView，话不多说，直接上代码：package com.cbg.canvastest;import android.content.Context;i

2015-09-11 23:38:38 830

原创属性(Attribute)资源使用自定义组件，并指定属性资源中定义的属性

今天练习中遇到一个让我记起头疼的问题，以前倒是写过自定义组件，但是使用属性资源中的自定义的还是头次碰到首先定义一个带duration的资源attrs.xml：然后写一个图片透明度变换的自定义组件AlphaImageView：package com.cbg.alphaimage;import

2015-09-09 20:11:25 462

原创分隔条的使用方法和效果

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" android:orientation="vertical" android:layout_width="fill_parent" android:layout_height="fill_parent"><ListView andr

2015-09-01 15:07:35 1411

原创 android:baselineAligned="false"

今天写代码偶遇这个问题; LinearLayout已经相当熟悉，但你们是否了解它的属性baselineAligned呢？那到底这个属性是做什么用的呢？ baselineAligned:基准线对齐。首先要解释什么是基准线，这个在中文中不常见，但在以字母为书写语言的其他国家非常常见,尤其是英文。如上图所示，红线就是基线(b

2015-09-01 10:01:23 6517 1

原创 Attribute is missing the Android namespace prefix错误

在写布局文件时突然蹦出这样把一个错误，然后查看一下发现这个错误超级低级，由此想总结几句：1、属性定义时，命名前缀错误，这里的命名前缀错误又分为丢失前缀、前缀书写错误（1）前缀丢失，比如定义一个TextVIew的属性时，android：id=，如果没有写android，便会报错这样错误，但是这个是显而易见的，一般我们不会犯下这个错误；eg： <fragment

2015-09-01 09:45:16 980

原创处理注册信息的小例子（bundle传递数据）

1.所包含的Activity共两个MainActivity，ResultActivity，一个Person类package com.cbg.bundle;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.view.View;import an

2015-08-30 11:06:00 493

原创在Android应用中添加背景音乐

1）在AndroidMainfest.xml文件中添加音乐服务<service android:name=".MusicServer" android:exported="false" > 2）在新建一个类Mu

2015-08-27 19:13:01 7957 1

转载处理一些warning

1.Avoid object allocations during draw/layout operations (preallocate and reuse instead)用Android自带的lint测试，发现上面这个问题。。。。百度一番发现。。。在ondraw/onlayout中尽量不要用new 对象的操作。。。因为ondraw/onlayout会经常被调用；这样比较耗内存。。。。

2015-08-27 17:19:31 499

原创避免Android中Context引起的内存泄露

Context是我们在编写Android程序经常使用到的对象，意思为上下文对象。常用的有Activity的Context还是有Application的Context。Activity用来展示活动界面，包含了很多的视图，而视图又含有图片，文字等资源。在Android中内存泄露很容易出现，而持有很多对象内存占用的Activity更加容易出现内存泄露，开发者需要特别注意这个问题。本文讲介绍Andr

2015-08-10 11:40:17 412

原创 Android中padding的用法总结

padding left用法：padding-left:10px; 这个意思距离左边补距10像素，可跟百分比如（padding-left:10%; 距离左边补10%的距离）；padding right用法：padding-right:10px; 这个意思距离右边补距10像素，可跟百分比如（padding-right:10%; 距离右边补10%的距离）；padding top用

2015-08-06 11:32:54 5347

原创 RelativeLayout常用到的一些重要的属性：

第一类:属性值为true或false android:layout_centerHrizontal 水平居中 android:layout_centerVertical 垂直居中 android:layout_centerInparent 相对于父元素完全居中 android:layout_alignParentBottom 贴紧父元素的下边缘 android:layout_a

2015-08-06 11:28:15 409

原创如何在一个Activity中添加menu

在Activity中添加如下：@Override public boolean onCreateOptionsMenu(Menu menu) { // Inflate the menu; this adds items to the action bar if it is present. getMenuInflater().inflate(R

2015-08-04 19:15:45 843 1

空空如也

空空如也