自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 #生产实习

实习结束后,我进行了深刻的反思。在这里,我首次接触到了真实的大数据项目,从数据的采集、存储到处理和分析,每一个环节都让我感到新奇和兴奋。实习的后期,我开始尝试独立承担一些小型项目,这让我有机会将所学知识应用到实践中,同时也锻炼了我的项目管理能力。作为一名计算机科学与技术专业的学生,我有幸在学校安排下参加了一次大数据计算机生产实习,这次经历不仅加深了我对大数据技术的理解,也让我对未来的职业生涯有了更加明确的规划。

2024-06-21 08:30:00 351

原创 #生产实习

大型语言模型的应用正在不断扩展,随着技术的进步,它们在各个领域的应用将变得更加深入和广泛。- 命名实体识别(NER):识别文本中的特定实体,如人名、地点、组织等。- 个性化学习:根据学生的学习进度和偏好提供定制化内容。- 情感分析:判断文本的情感倾向,如正面、负面或中性。- 分析报告:生成基于数据的分析报告,辅助决策制定。- 语言模型:用于语言生成、文本摘要、机器翻译等。- 问答系统:回答用户的问题,提供准确的信息。- 药物发现:分析文献和数据,辅助新药的研发。- 语言学习:辅助语言学习者练习语言技能。

2024-06-20 22:54:24 179

原创 #生产实习

这些是Spark SQL的一些基本操作,根据你的具体需求,可能还会有更复杂的查询和数据操作。使用`DataFrame`的`select`和`filter`方法,或者使用`sql`方法执行SQL查询。Spark SQL的操作始于创建一个`SparkSession`实例,它是Spark SQL的入口点。使用`cache`或`persist`方法缓存DataFrame,以便在多次查询中重用。使用SparkSession的`read`方法来读取不同格式的数据。使用`groupBy`和`agg`进行数据聚合。

2024-06-20 22:51:37 630

原创 #生产实习

例如,如果用户购买了一本书,系统可能会推荐其他购买同一本书的用户也购买的其他书籍。:如Google News,使用协同过滤来向用户推荐新闻文章,这些文章是根据用户的阅读历史和其他用户的阅读习惯来选择的。:在LinkedIn或Facebook等社交媒体上,协同过滤可以帮助推荐可能认识的人或感兴趣的内容。:在推荐系统中,大语言模型可以用于理解用户的兴趣和偏好,从而提供个性化的内容推荐。:大语言模型可以用于构建问答系统,理解用户的问题并提供准确的答案。:改进搜索引擎,理解用户的查询意图并提供更相关的搜索结果。

2024-06-20 22:44:45 153

原创 #生产实习

基于用户的协同过滤算法是通过用户的历史行为数据发现用户的偏好,然后找到与目标用户有相似偏好的其他用户群体,最后根据这些相似用户的行为来进行推荐。例如,如果用户A和用户B都喜欢商品x、y和z,那么当用户A对一个新商品w表示喜欢时,系统会推荐商品w给用户B。协同过滤算法虽然在实际应用中取得了巨大成功,但仍面临一些挑战,如冷启动问题(新用户或新物品缺乏足够的行为数据)、稀疏性问题(用户和物品数量巨大但互动较少导致的数据稀疏性)以及计算复杂性问题(随着用户和物品数量的增加,计算量呈指数上升)。

2024-06-20 22:41:17 204

原创 #生产实习

大语言模型通常指的是具有大量参数的深度学习模型,它们能够理解和生成自然语言。这些模型通过在大量文本数据上进行训练,学习语言的模式和结构,从而能够执行复杂的语言任务。

2024-06-20 22:36:39 288

原创 #生产实习

关联规则是数据挖掘中的一种技术,用于发现变量之间的有趣关系,特别是变量之间的频繁模式、关联、相关性。这种技术可以揭示数据项之间的内在联系,帮助人们理解数据的内在结构。关联规则挖掘的典型应用包括市场篮子分析,其中分析顾客的购买行为,发现顾客购买某些商品时倾向于购买其他商品的模式。:清洗数据,处理缺失值和异常值,可能还需要进行数据转换或规范化。:根据最小支持度阈值,找出所有频繁项集。支持度是指项集在所有交易中出现的频率。:从频繁项集中生成强关联规则。一个规则的强度通常由两个指标衡量:置信度和提升度。

2024-06-18 23:57:38 1348

原创 #生产实习

​ 开窗函数row_number()是Spark SQL中常用的一个窗口函数,使用该函数可以在查询结果中对每个分组的数据,按照其排列的顺序添加一列行号(从1开始),根据行号可以方便地对每一组数据取前N行(分组取TopN)。但与RDD不同的是,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。​ 在Spark中,一个DataFrame代表的是一个元素类型为Row的Dataset,即DataFrame只是Dataset[Row]的一个类型别名。

2024-06-17 23:31:28 238

原创 #生产实习

​ reduceByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成一个元素。​ rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反,其与数据库的右外连接类似,以右边的RDD为基准(例如rdd1.rightOuterJoin(rdd2),以rdd2为基准),右边RDD的记录一定会存在。Spark会将RDD中的每个元素传入该函数的参数中。

2024-06-16 23:15:39 237

原创 #生产实习

​ 例如,将数据集(hello,world,scala,spark,love,spark,happy)存储在三个节点上,节点一存储(hello,world),节点二存储(scala,spark,love),节点三存储(spark,happy),这样对三个节点的数据可以并行计算,并且三个节点的数据共同组成了一个RDD。​ 在编程时,可以把RDD看作是一个数据操作的基本单位,而不必关心数据的分布式特性,Spark会自动将RDD的数据分发到集群的各个节点。不同的是,数据的来源路径不同。

2024-06-15 22:55:59 305

原创 #生产实习

​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。为了防止出错,建议此处将该选项配置上。

2024-06-14 23:20:27 269

原创 #生产实习

hive开启的thriftServer地址

2024-06-13 13:14:16 645

原创 #生产实习

hive开启的thriftServer地址

2024-06-13 13:12:17 339

原创 #生产实习

总之,在手机号流量统计项目中遇到的问题涉及数据处理的准确性、性能优化、自定义数据类型的处理以及具体实施步骤等多个方面。通过深入分析和解决这些问题,可以有效提高项目的成功率,增强程序的稳定性和可靠性。同时,持续学习和改进是解决这些问题的关键。在手机号流量统计项目中,遇到的问题主要集中在数据处理的准确性、性能优化以及自定义数据类型的处理上。

2024-06-06 00:00:03 271 1

原创 #生产实习

自定义Partitioner的实现是项目的一大亮点。通过编写ProvincePartitioner类,我学会了如何根据业务需求进行数据分区,提高了数据处理的效率。在实际应用中,数据的分区策略对任务的执行效率有着重要影响,通过合理的分区策略,可以大大减少数据传输的开销,提升整体性能。通过这次手机号流量统计项目,我不仅掌握了Hadoop MapReduce编程的基本技能,也深刻体会到分布式计算的魅力和挑战。在今后的学习和工作中,我会继续深入研究大数据技术,不断提高自己的技术水平。

2024-06-05 16:17:18 232 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除