自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chenbengang的博客

一个默默追求梦想的boy!

  • 博客(46)
  • 收藏
  • 关注

原创 大数据-数据仓库Hive

数据仓库Hive一、Hive简介数据仓库:面向主题、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。传统数据仓库面临挑战:无法满足海量数据存储需求;无法有效处理不同类型数据;计算可处理能力不足。Hive满足上述挑战,且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。Hiv...

2020-05-07 16:49:40 450

原创 大数据-MapReduce

大数据-MapReduce分布式并行编程传统的并行计算,共享型方案刀片服务器,适用于实时的细粒度计算,尤其是计算密集的应用。MapReduce扩展性好,节点普通pc也可,每个节点拥有自己的内存和空间,适用于非实时的批处理,以及数据密集型的应用。MapReduce模型复杂的计算过程高度抽象成两个函数,map和reduce。将庞大数据切片,对每个小片并行的单独使用map处理,计算向数...

2020-05-01 09:44:59 848

原创 分布式数据库HBase

分布式数据库HBase一、HBase简介(基于bigtable):bigtable的用处: bigtable支持pb级别数据,高可扩展性,可扩展到几千个服务器的分布式存储。存储非结构化和半结构化数据。bigtable的原理:HBase相比于关系型数据库具备自动分片能力、良好的水平可扩展性。二、HBase数据模型HBase由行键、列族,列限定符,时间戳四个元素组成。旧的版本保留,...

2020-02-21 16:50:57 433

原创 分布式文件系统HDFS

hdfs相关概念namenode包括fsimage和editlog组成。fsimage:保存系统文件树,记录块大小及组成文件的块、访问权限、文件的复制等级、修改和访问时间。editlog:记录对数据的增删改查等操作。datanode:将数据保存到linux文件系统即可,负责存和取。至于块被放在哪个地方是由namenode构建清单,与datanode沟通。如果只有fsimage则运行过...

2020-02-11 15:45:59 584

原创 Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测

基于Hive和Spark的淘宝双11数据分析与预测1.系统和环境要求(版本仅供参考):Linux: centos7MySQL: 5.7.16Hadoop: 2.7.1Hive: 1.2.1Sqoop: 1.4.6Spark: 2.1.0Eclipse: 3.8ECharts: 3.4.02.数据上传到Hive(Hive的安装配置)2.1数据集格式内容数据集压缩包为dat...

2020-01-17 16:26:50 11957 9

原创 Linux查看文件指定行数内容

Linux查看文件指定行数内容1、tail date.log 输出文件末尾的内容,默认10行 tail -20 date.log 输出最后20行的内容 tail -n -20 date.log 输出倒数第20行到文件末尾的内容 tail -n +20 date.log 输出第20行到文件末尾的内容 tail -f date....

2020-01-17 10:47:34 3514

原创 Spark大数据-Spark+Kafka构建实时分析Dashboard

Spark+Kafka构建实时分析Dashboard1.框架利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现,案例的整体框架图如下:详细分析下上述步骤:应用程序将购物日志发送给Kafka,topic为”sex”,因为这里只是统计购物男女生人数,...

2020-01-17 10:19:10 2788

原创 Spark大数据-TMDB电影数据分析(spark-scala版)

TMDB电影数据分析(spark-scala版,pyspark版本)基于kaggle的TMDB电影数据集的数据分析,该数据集包含大约 5000 部电影的相关数据,TMDB数据下载。分析电影关键词的分布、电影投入以及收益评价等之间的关系,并使用Python web进行可视化。一.环境要求(仅供参考)centos7、hadoop、spark、bottle(一种基于Python的web框架)。二...

2020-01-16 16:29:08 9291 5

原创 Spark大数据-ml的逻辑斯蒂回归和决策树解决分类问题

ml的逻辑斯蒂回归和决策树解决分类问题1.逻辑斯蒂回归解决分类问题使用ml库的逻辑斯蒂回归解决鸢尾花的二分类问题:// 二分类逻辑斯地回归,只用两个属性长度和宽度import org.apache.spark.sql.Rowimport org.apache.spark.ml.linalg.{Vector,Vectors}import org.apache.spark.ml.eval...

2019-12-31 15:40:56 503

原创 Spark大数据-特征抽取CountVectorizer

特征抽取CountVectorizer// 通过计数将文档转化为向量的,产生文档关于词语的稀疏表示// CountVectorizer将根据语料库中的词频排序从高到低进行选择,词汇表的最大含量由vocabsize超参数来指定,超参数minDF,// 则指定词汇表中的词语至少要在多少个不同文档中出现import org.apache.spark.sql.SparkSessionval...

2019-12-31 10:43:26 523

原创 Spark大数据-特征抽取Word2Vec(Scala版)

特征抽取Word2Vecimport org.apache.spark.sql.SparkSessionval spark=SparkSession.builder().master("local").appName("word2vec").getOrCreate()import spark.implicits._import org.apache.spark.ml.feature.W...

2019-12-31 10:23:16 625

原创 Spark大数据-特征抽取TF-IDF

特征抽取TF-IDFimport org.apache.spark.ml.feature.{HashingTF,IDF,Tokenizer}import org.apache.spark.sql.SparkSessionval spark=SparkSession.builder(). master("local"). appName("TF-IDF-Test"). ...

2019-12-31 10:04:32 418

原创 Spark大数据-Spark MLib机器学习流水线Pipeline

Spark MLib机器学习流水线PipelineDataFrame作为基本的数据抽象。Transform:转化器,传入DataFrame转换成新的DataFrame。Estimator:评估器,fit训练得到模型。Pipeline:流水线,多步骤组合。构建Pipeline:// 构建一个机器学习工作流// 在原始DataFrame上调用Pipeline.fit()方法,它具有原始...

2019-12-31 09:14:47 919

原创 Spark-Spark MLib简介

Spark MLib简介hadopp实现机器学习:MapReduce也可以编写机器学习,基于磁盘操作,多次迭代计算磁盘IO开销大。spark实现机器学习:spark是基于内存,只有shuffle操作需要落磁盘,实现管道化处理,在内存中完成数据交接。大大减少在磁盘的IO开销。基于MLib库。MLib包含:分类、回归、聚类、协同过滤、降维。特征化工具:特征提取、转化、降维、选择工具...

2019-12-30 17:17:15 3629

原创 Spark大数据-structured streaming

structured streaming概述structured streaming引入持续流处理模式,真正支持毫秒级别响应。spark streaming无法满足毫秒级响应。2.2正式发布。重新抽象流式计算,基于DataFrame数据抽象。易于exactly-once(所有数据只被处理一次),以前的spark为at-least once(所有数据至少处理一次)。1.structur...

2019-12-30 16:48:06 267

原创 Spark大数据-spark streaming输出操作

spark streaming输出操作其他部分与转换操作一样,只需要添加输出保存部分,保存为文件使用saveAsTextFiles,输出到mysql数据库。object NetworkWordCountStateful { def main(args: Array[String]) { //定义状态更新函数 val updateFunc = (values: Seq[Int...

2019-12-30 10:25:26 754

原创 Spark大数据-spark streaming转换操作

spark streaming转换操作1.无状态转换map操作:源 为DStream,一次一对一转换。flatMap:一个输入映射成0或多个输出项。filter:过滤,满足条件的过滤出来。repartition:改变DStream用的分区数。reduce:提供聚合函数,进行聚合运算。count:统计源DStream中每个RDD的元素数量。union:合并多个DStream...

2019-12-28 20:04:08 523

原创 大数据-ambari安装过程中的问题

1.解决安装ambari需要大于等于python2.6:centos7,安装配置好java环境。2.解决没有权限登录问题:先按照那两个博客配置好ssh localhost免密登录,再按照cnblogs的配置思路,有分布式的话,配置好分布式的免密登录问题。3.解决连接超时问题。...

2019-12-22 09:41:37 507

原创 java编程-反射在数据库上的应用

java反射在数据库上的应用一、java反射:1.在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法。 2.对于任意一个对象,都能够调用它的任意一个方法。这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。二、反射在数据库上的应用:传统的数据库操作代码为,每个表格创建dao类效率低。一个dao方法,四个方法操作,传入不同对象。反射机制用来做重复有规则事情。保存...

2019-12-20 09:44:57 389

原创 Spark大数据-输入源之kafka的spark streaming流处理

Spark大数据-输入源之kafkakafka相关基础高吞吐量的分布式发布订阅消息系统,能订阅和发布消息。broker:kafka集群中每个节点服务器叫broker。topic:消息扔给某个topic,订阅相关topic即可。partition:每个topic消息非常多,所以需要分区放在多台服务器上。生产者:把消息发给kafka broker。消费者:向kafka broker读...

2019-12-18 11:35:36 713

原创 Spark大数据-输入源之RDD队列流

Spark大数据-输入源之RDD队列流RDD队列流每隔一秒创建一个RDD扔到队列中,spark streaming每隔两秒从队列流中处理一次,对队列RDD中的每个数做余数词频统计。// 每隔1秒创建一个RDD,Streaming每隔2秒就对数据进行处理import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimpo...

2019-12-17 10:41:47 607

原创 Spark大数据-输入源之套接字流

Spark大数据-输入源之套接字流套接字流使用套接字流作为spark streaming数据源1.创建客户端文件目录cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir -p src/main/scala //如果已经存在该目录,则不用创建cd src/main/scalavim NetworkWordCoun...

2019-12-16 16:47:22 1020

原创 Spark大数据-输入源之文件流

文件流日志的实时捕捉:对目录进行监控,只要目录生成新的文件或者文件变动就捕捉。1.创建被监控的文件目录:cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir logfilecd logfile2.spark-scala文件监控程序-实现词频统计:import org.apache.spark._impor...

2019-12-16 11:45:29 649

原创 Spark大数据-Dstream概述

Dstream概述工作机制输入数据流的input Dstream和receiver挂接起来。1.创建输入Dstream定义输入源,文件流,kafka,rdd队列流。2.转换和输出操作定义流计算过程。3.StreamingContext.start()、awaitTermination()等待处理结束(发生错误结束)、stop()手动结束。// 创建StreamingContext...

2019-12-16 11:02:51 351

原创 Spark大数据-Spark Streaming

Spark Streaming输入输出源输入源:kafka、flume、hdfs、tcp socket。输出源:hdfs、databases、dashboards。Spark Streaming基本原理连续数据切分,每段数据交给spark处理批处理,每段批处理模仿流处理。Spark是线程级别并行,实时响应级别高。实现秒级响应,变相实现高效流计算。DStream:一堆的RDD。...

2019-12-16 11:02:33 93

原创 Spark大数据-Spark流数据概述

spark流数据概述1.两种典型数据2.流数据特征3.流计算概述1.两种典型数据静态数据和流数据2.流数据特征数据快速持续到达,潜在大小无穷无尽数据来源多,格式复杂数据量大注重数据整体价值顺序颠倒或不完整3.流计算概述批量计算,MapReduce 处理大规模静态数据,无法满足秒级响应。流计算框架,实时采集,实时分析处理,结果反馈。用户点击流实时分析,时间内结果有意义...

2019-12-16 11:02:03 429

原创 在Android Studio中的res文件夹下新建含alpha的XML文件

首先,在project视图下,res目录下 新建new->Directory命名为anim然后,在anim文件夹下new ->Animation resource file 如图可以选择根节点为alpha(透明度)当切换到android视图时,目录在res下正常显示(建议project视图)。

2016-02-15 22:01:41 3490

原创 invalidate()和postInvalidate() 的区别及使用

Android提供了Invalidate方法实现界面刷新,但是Invalidate不能直接在线程中调用,因为他是违背了单线程模型:Android UI操作并不是线程安全的,并且这些操作必须在UI线程中调用。 invalidate()是用来刷新View的,必须是在UI线程中进行工作。比如在修改某个view的显示时,调用invalidate()才能看到重新绘制的界面。invalidate()的

2015-10-05 17:42:38 400

原创 Android中图形与图像处理初见面——绘图

第一次见到Android绘图就发现其无非就是Canvas和Paint,也就是画布,和画笔,其中Canvas还用到了Path,Path代表任意多条直线链接而成的任意图形。以下为在应用程序中绘制几何图形,关键在于一个自定义的view组件MyView,话不多说,直接上代码:package com.cbg.canvastest;import android.content.Context;i

2015-09-11 23:38:38 838

原创 属性(Attribute)资源使用自定义组件,并指定属性资源中定义的属性

今天练习中遇到一个让我记起头疼的问题,以前倒是写过自定义组件,但是使用属性资源中的自定义的还是头次碰到首先定义一个带duration的资源attrs.xml: 然后写一个图片透明度变换的自定义组件AlphaImageView:package com.cbg.alphaimage;import

2015-09-09 20:11:25 469

原创 分隔条的使用方法和效果

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" android:orientation="vertical" android:layout_width="fill_parent" android:layout_height="fill_parent"><ListView andr

2015-09-01 15:07:35 1429

原创 android:baselineAligned="false"

今天写代码偶遇这个问题;   LinearLayout已经相当熟悉,但你们是否了解它的属性baselineAligned呢?那到底这个属性是做什么用的呢?         baselineAligned:基准线对齐。     首先要解释什么是基准线,这个在中文中不常见,但在以字母为书写语言的其他国家非常常见,尤其是英文。           如上图所示,红线就是基线(b

2015-09-01 10:01:23 6548 1

原创 Attribute is missing the Android namespace prefix错误

在写布局文件时突然蹦出这样把一个错误,然后查看一下发现这个错误超级低级,由此想总结几句:1、属性定义时,命名前缀错误,这里的命名前缀错误又分为丢失前缀、前缀书写错误(1)前缀丢失,比如定义一个TextVIew的属性时,android:id=,如果没有写android,便会报错这样错误,但是这个是显而易见的,一般我们不会犯下这个错误;eg: <fragment

2015-09-01 09:45:16 1099

原创 处理注册信息的小例子(bundle传递数据)

1.所包含的Activity共两个MainActivity,ResultActivity,一个Person类package com.cbg.bundle;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.view.View;import an

2015-08-30 11:06:00 500

原创 在Android应用中添加背景音乐

1)在AndroidMainfest.xml文件中添加音乐服务<service android:name=".MusicServer" android:exported="false" > 2)在新建一个类Mu

2015-08-27 19:13:01 7982 1

转载 处理一些warning

1.Avoid object allocations during draw/layout operations (preallocate and reuse instead)用Android自带的lint测试,发现上面这个问题。。。。百度一番发现。。。在ondraw/onlayout中尽量不要用new 对象的操作。。。因为ondraw/onlayout会经常被调用;这样比较耗内存。。。。

2015-08-27 17:19:31 508

原创 避免Android中Context引起的内存泄露

Context是我们在编写Android程序经常使用到的对象,意思为上下文对象。 常用的有Activity的Context还是有Application的Context。Activity用来展示活动界面,包含了很多的视图,而视图又含有图片,文字等资源。在Android中内存泄露很容易出现,而持有很多对象内存占用的Activity更加容易出现内存泄露,开发者需要特别注意这个问题。本文讲介绍Andr

2015-08-10 11:40:17 419

原创 Android中padding的用法总结

padding left用法:padding-left:10px;  这个意思距离左边补距10像素,可跟百分比如(padding-left:10%;   距离左边补10%的距离);padding right用法:padding-right:10px; 这个意思距离右边补距10像素,可跟百分比如(padding-right:10%; 距离右边补10%的距离);padding top用

2015-08-06 11:32:54 5366

原创 RelativeLayout常用到的一些重要的属性:

第一类:属性值为true或false android:layout_centerHrizontal 水平居中 android:layout_centerVertical 垂直居中 android:layout_centerInparent 相对于父元素完全居中 android:layout_alignParentBottom 贴紧父元素的下边缘 android:layout_a

2015-08-06 11:28:15 418

原创 如何在一个Activity中添加menu

在Activity中添加如下:@Override    public boolean onCreateOptionsMenu(Menu menu) {        // Inflate the menu; this adds items to the action bar if it is present.        getMenuInflater().inflate(R

2015-08-04 19:15:45 855 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除