chenbengang
码龄9年
关注
提问 私信
  • 博客:84,803
    问答:754
    85,557
    总访问量
  • 44
    原创
  • 1,364,473
    排名
  • 37
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-07-31
博客简介:

chenbengang的博客

博客描述:
一个默默追求梦想的boy!
查看详细资料
个人成就
  • 获得63次点赞
  • 内容获得19次评论
  • 获得500次收藏
  • 代码片获得2,082次分享
创作历程
  • 8篇
    2020年
  • 18篇
    2019年
  • 1篇
    2016年
  • 19篇
    2015年
成就勋章
TA的专栏
  • 大数据
    5篇
  • Spark大数据
    20篇
  • java编程
    1篇
  • Android开发
    11篇
兴趣领域 设置
  • 人工智能
    tensorflow
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大数据-数据仓库Hive

数据仓库Hive一、Hive简介数据仓库:面向主题、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。传统数据仓库面临挑战:无法满足海量数据存储需求;无法有效处理不同类型数据;计算可处理能力不足。Hive满足上述挑战,且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。Hiv...
原创
发布博客 2020.05.07 ·
453 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

大数据-MapReduce

大数据-MapReduce分布式并行编程传统的并行计算,共享型方案刀片服务器,适用于实时的细粒度计算,尤其是计算密集的应用。MapReduce扩展性好,节点普通pc也可,每个节点拥有自己的内存和空间,适用于非实时的批处理,以及数据密集型的应用。MapReduce模型复杂的计算过程高度抽象成两个函数,map和reduce。将庞大数据切片,对每个小片并行的单独使用map处理,计算向数...
原创
发布博客 2020.05.01 ·
856 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

分布式数据库HBase

分布式数据库HBase一、HBase简介(基于bigtable):bigtable的用处: bigtable支持pb级别数据,高可扩展性,可扩展到几千个服务器的分布式存储。存储非结构化和半结构化数据。bigtable的原理:HBase相比于关系型数据库具备自动分片能力、良好的水平可扩展性。二、HBase数据模型HBase由行键、列族,列限定符,时间戳四个元素组成。旧的版本保留,...
原创
发布博客 2020.02.21 ·
435 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

分布式文件系统HDFS

hdfs相关概念namenode包括fsimage和editlog组成。fsimage:保存系统文件树,记录块大小及组成文件的块、访问权限、文件的复制等级、修改和访问时间。editlog:记录对数据的增删改查等操作。datanode:将数据保存到linux文件系统即可,负责存和取。至于块被放在哪个地方是由namenode构建清单,与datanode沟通。如果只有fsimage则运行过...
原创
发布博客 2020.02.11 ·
586 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测

基于Hive和Spark的淘宝双11数据分析与预测1.系统和环境要求(版本仅供参考):Linux: centos7MySQL: 5.7.16Hadoop: 2.7.1Hive: 1.2.1Sqoop: 1.4.6Spark: 2.1.0Eclipse: 3.8ECharts: 3.4.02.数据上传到Hive(Hive的安装配置)2.1数据集格式内容数据集压缩包为dat...
原创
发布博客 2020.01.17 ·
12130 阅读 ·
29 点赞 ·
9 评论 ·
280 收藏

Linux查看文件指定行数内容

Linux查看文件指定行数内容1、tail date.log 输出文件末尾的内容,默认10行 tail -20 date.log 输出最后20行的内容 tail -n -20 date.log 输出倒数第20行到文件末尾的内容 tail -n +20 date.log 输出第20行到文件末尾的内容 tail -f date....
原创
发布博客 2020.01.17 ·
3520 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

Spark大数据-Spark+Kafka构建实时分析Dashboard

Spark+Kafka构建实时分析Dashboard1.框架利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现,案例的整体框架图如下:详细分析下上述步骤:应用程序将购物日志发送给Kafka,topic为”sex”,因为这里只是统计购物男女生人数,...
原创
发布博客 2020.01.17 ·
2795 阅读 ·
6 点赞 ·
0 评论 ·
28 收藏

Spark大数据-TMDB电影数据分析(spark-scala版)

TMDB电影数据分析(spark-scala版,pyspark版本)基于kaggle的TMDB电影数据集的数据分析,该数据集包含大约 5000 部电影的相关数据,TMDB数据下载。分析电影关键词的分布、电影投入以及收益评价等之间的关系,并使用Python web进行可视化。一.环境要求(仅供参考)centos7、hadoop、spark、bottle(一种基于Python的web框架)。二...
原创
发布博客 2020.01.16 ·
9324 阅读 ·
9 点赞 ·
5 评论 ·
135 收藏

Spark大数据-ml的逻辑斯蒂回归和决策树解决分类问题

ml的逻辑斯蒂回归和决策树解决分类问题1.逻辑斯蒂回归解决分类问题使用ml库的逻辑斯蒂回归解决鸢尾花的二分类问题:// 二分类逻辑斯地回归,只用两个属性长度和宽度import org.apache.spark.sql.Rowimport org.apache.spark.ml.linalg.{Vector,Vectors}import org.apache.spark.ml.eval...
原创
发布博客 2019.12.31 ·
504 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark大数据-特征抽取CountVectorizer

特征抽取CountVectorizer// 通过计数将文档转化为向量的,产生文档关于词语的稀疏表示// CountVectorizer将根据语料库中的词频排序从高到低进行选择,词汇表的最大含量由vocabsize超参数来指定,超参数minDF,// 则指定词汇表中的词语至少要在多少个不同文档中出现import org.apache.spark.sql.SparkSessionval...
原创
发布博客 2019.12.31 ·
525 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark大数据-特征抽取Word2Vec(Scala版)

特征抽取Word2Vecimport org.apache.spark.sql.SparkSessionval spark=SparkSession.builder().master("local").appName("word2vec").getOrCreate()import spark.implicits._import org.apache.spark.ml.feature.W...
原创
发布博客 2019.12.31 ·
625 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Spark大数据-特征抽取TF-IDF

特征抽取TF-IDFimport org.apache.spark.ml.feature.{HashingTF,IDF,Tokenizer}import org.apache.spark.sql.SparkSessionval spark=SparkSession.builder(). master("local"). appName("TF-IDF-Test"). ...
原创
发布博客 2019.12.31 ·
422 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark大数据-Spark MLib机器学习流水线Pipeline

Spark MLib机器学习流水线PipelineDataFrame作为基本的数据抽象。Transform:转化器,传入DataFrame转换成新的DataFrame。Estimator:评估器,fit训练得到模型。Pipeline:流水线,多步骤组合。构建Pipeline:// 构建一个机器学习工作流// 在原始DataFrame上调用Pipeline.fit()方法,它具有原始...
原创
发布博客 2019.12.31 ·
927 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark-Spark MLib简介

Spark MLib简介hadopp实现机器学习:MapReduce也可以编写机器学习,基于磁盘操作,多次迭代计算磁盘IO开销大。spark实现机器学习:spark是基于内存,只有shuffle操作需要落磁盘,实现管道化处理,在内存中完成数据交接。大大减少在磁盘的IO开销。基于MLib库。MLib包含:分类、回归、聚类、协同过滤、降维。特征化工具:特征提取、转化、降维、选择工具...
原创
发布博客 2019.12.30 ·
3640 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

Spark大数据-structured streaming

structured streaming概述structured streaming引入持续流处理模式,真正支持毫秒级别响应。spark streaming无法满足毫秒级响应。2.2正式发布。重新抽象流式计算,基于DataFrame数据抽象。易于exactly-once(所有数据只被处理一次),以前的spark为at-least once(所有数据至少处理一次)。1.structur...
原创
发布博客 2019.12.30 ·
268 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark大数据-spark streaming输出操作

spark streaming输出操作其他部分与转换操作一样,只需要添加输出保存部分,保存为文件使用saveAsTextFiles,输出到mysql数据库。object NetworkWordCountStateful { def main(args: Array[String]) { //定义状态更新函数 val updateFunc = (values: Seq[Int...
原创
发布博客 2019.12.30 ·
757 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark大数据-spark streaming转换操作

spark streaming转换操作1.无状态转换map操作:源 为DStream,一次一对一转换。flatMap:一个输入映射成0或多个输出项。filter:过滤,满足条件的过滤出来。repartition:改变DStream用的分区数。reduce:提供聚合函数,进行聚合运算。count:统计源DStream中每个RDD的元素数量。union:合并多个DStream...
原创
发布博客 2019.12.28 ·
527 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据-ambari安装过程中的问题

1.解决安装ambari需要大于等于python2.6:centos7,安装配置好java环境。2.解决没有权限登录问题:先按照那两个博客配置好ssh localhost免密登录,再按照cnblogs的配置思路,有分布式的话,配置好分布式的免密登录问题。3.解决连接超时问题。...
原创
发布博客 2019.12.22 ·
514 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java编程-反射在数据库上的应用

java反射在数据库上的应用一、java反射:1.在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法。 2.对于任意一个对象,都能够调用它的任意一个方法。这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。二、反射在数据库上的应用:传统的数据库操作代码为,每个表格创建dao类效率低。一个dao方法,四个方法操作,传入不同对象。反射机制用来做重复有规则事情。保存...
原创
发布博客 2019.12.20 ·
391 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark大数据-输入源之kafka的spark streaming流处理

Spark大数据-输入源之kafkakafka相关基础高吞吐量的分布式发布订阅消息系统,能订阅和发布消息。broker:kafka集群中每个节点服务器叫broker。topic:消息扔给某个topic,订阅相关topic即可。partition:每个topic消息非常多,所以需要分区放在多台服务器上。生产者:把消息发给kafka broker。消费者:向kafka broker读...
原创
发布博客 2019.12.18 ·
715 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多