大数据
文章平均质量分 85
AIGC人工智残
这个作者很懒,什么都没留下…
展开
-
大数据——Spark Streaming
Spark Streaming是一个可扩展、高吞吐、具有容错性的流式计算框架。之前我们接触的spark-core和spark-sql都是离线批处理任务,每天定时处理数据,对于数据的实时性要求不高,一般都是T+1的。但在企业任务中存在很多的实时性的任务需求,列如双十一的京东阿里都会要求做一个实时的数据大屏,显示实时订单。实时计算框架对比。原创 2023-10-08 15:55:14 · 1883 阅读 · 0 评论 -
大数据——Spark SQL
Spark中DataFrame是⼀个分布式的⾏集合,可以想象为⼀个关系型数据库的表,或者⼀个带有列名的Excel表格。不可变(Immuatable):跟RDD一样,一旦创建就不能更改你,只能通过transformation生成新的DataFrame;懒加载(Lazy Evaluations):只有action才会让transformation执行;分布式(Distributed):也是分布式的。原创 2023-09-22 10:28:57 · 1064 阅读 · 1 评论 -
大数据——spark一文全知道
spark是专为大规模数据处理而设计的快速通用计算引擎,与Hadoop的MapReduce功能类似,但它是基于内存的分布式计算框架,存储还是采用HDFS。原创 2023-08-25 11:27:40 · 1003 阅读 · 0 评论 -
大数据——一文熟悉HBase
HBase是基于HDFS的数据存储,它建立在HDFS文件系统上面,利用了HDFS的容错能力,内部还有哈希表并利用索引,可以快速对HDFS上的数据进行随时读写功能。Hadoop在已经有一个Hive+MapReduce结构的数据读写功能,为什么还要HBase呢?我们在使用Hive的过程中也发现,MapReduce的过程很慢,不适合实时的读写访问,更多的时候是进行线下的访问。但在实际应用过程中,我们需要对大数据进行实时的读写,这时候HBase就派上用场。原创 2023-08-22 15:18:33 · 1375 阅读 · 0 评论 -
Hadoop的DataNode无法启动的解决方案
3. 删除HDFS下的DataNode下的Data文件。原创 2023-08-17 15:33:22 · 3567 阅读 · 5 评论 -
Hive无法启动的解决方案
需要删除core-site配置文件中hadoop.tmp.dir映射的文件目,一般在hadoop/tmp文件夹下。原创 2023-08-17 11:42:11 · 1642 阅读 · 0 评论 -
大数据——Hive一文全知道
UDF: ⽤户⾃定义函数(user-defined function)相当于mapper,对每⼀条输⼊数据,映射为⼀条输出数据。UDAF: ⽤户⾃定义聚合函数 (user-defined aggregation function)相当于reducer,做聚合操作,把⼀组输⼊数据映射为⼀条(或多条)输出数据。运行别人写好的UDF示例:在hdfs中创建 /user/hive/lib⽬录把 hive⽬录下 lib/hive-contrib-2.3.4.jar 放到hdfs中。原创 2023-08-16 20:32:02 · 98 阅读 · 0 评论 -
大数据——Hadoop一文全知道
Hadoop是Apache下面一个开源分布式计算框架,它具有分布式计算框架、可靠性和可拓展性等优点。它能够处理存储在计算机集群上的大规模数据集;方便拓展,从单个服务器扩展到千台计算机,并且每台都能提供本地计算和存储;不依靠硬件来提供可用性,而是通过软件层面处理和解决故障。Hadoop一般用于搭建大型数据仓库和PB级数据的存储、处理、分析和统计等业务。原创 2023-08-15 17:26:41 · 128 阅读 · 0 评论 -
大数据——协同过滤推荐算法:矩阵分解
矩阵分解的方法也分为很多种:SVD、LFM、BiasSVD和SVD++。原创 2023-08-14 10:25:03 · 582 阅读 · 0 评论 -
大数据——协同过滤推荐算法:线性回归算法
本文主要介绍Model-Based协同过滤算法中的线性回归算法。原创 2023-08-10 21:50:15 · 425 阅读 · 0 评论 -
大数据——推荐系统
推荐系统是指面对没有需求的用户在进入产品时,要给用户推荐什么东西,现在的APP基本上都会采用推荐系统。从一开始的1990s开始的门户网站,像Yahoo、搜狐和Hao123等等,都是基于分类目录的网页导航网站,将各个网页聚合在一个网页中,方便用户跳转访问;到了2000s开始,进入搜索引擎,例如百度、google和必应,用户通过有目的的搜索,找到自己的需求网站;原创 2023-08-08 11:29:32 · 1620 阅读 · 0 评论