- 博客(23)
- 资源 (1)
- 收藏
- 关注
原创 什么是云计算?
有了云计算之后,无论是企业还是个人,想要搭建网站或者软件平台,不再需要像以前那样非要有自己的服务器等硬件工具了,完全可以租用云服务器,调用云端计算资源等。因为企业各自搭建服务耗费巨大,于是就出有人想到能不能通过租用的方式,把自己的数据存储和计算在供应商提供远端的服务器上呢,事实证明是可行的。理解了“云”之后,云计算就容易理解了,就是一种把计算服务与数据存储作为一种商品进行售卖或者租赁,购买后可以在云端提供服务。“云”中的资源在用户看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
2024-06-09 21:13:40 181
原创 大数据学习路线
分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了 HBase、MongoDB。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。大数据处理的第一步是数据的收集。
2023-08-07 09:29:24 138
原创 利用python爬取招聘网站上的相关岗位信息
总的来说,这段代码通过模拟浏览器的方式访问Boss直聘网站,搜索关键词"大数据",然后将搜索结果中的数据岗位信息提取出来,并保存到CSV文件中。循环爬取页面数据,每次点击下一页按钮,等待页面加载,解析页面内容并保存到self.data_list中。定义了一个parse_html方法,用于解析页面内容并提取需要的数据,然后将数据保存到CSV文件中。定义了一个名为Boss的类,该类用于爬取数据岗位信息并保存到CSV文件中。在主程序中,先创建一个boss_data.csv文件,并写入表头。限制最多翻页10次。
2023-07-05 21:01:02 3946 17
原创 Spark的设计与运行原理
Spark是一个开源的大数据处理框架,它最初由加州大学伯克利分校的AMPLab开发,目前由Apache软件基金会进行维护。Spark提供了强大的数据处理功能,支持多种数据源,包括HDFS、Cassandra、HBase、Redis等,同时也提供了灵活的数据处理方式,包括批处理、流处理和机器学习等。
2023-06-06 14:55:36 511
原创 javax.net.ssl.SSLException MESSAGE: closing inbound before receiving peer‘s close_notify
使用JDBC连接数据库时,SSL 握手失败.
2023-05-30 16:01:51 328
原创 scala函数式编程基础
函数式编程是一种编程范式,它强调使用函数来处理数据,而不是像面向对象编程那样使用对象。这种编程范式的核心概念是函数的纯函数和高阶函数。
2023-04-17 17:40:02 302
原创 当Linux虚拟机使用ifconfig命令查询iP地址出现错误时的解决方法
当Linux虚拟机使用ifconfig命令查询iP地址出现错误时的解决方法
2023-04-15 17:45:35 1127
原创 FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hiv
Hive报错 FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 的解决方法
2023-04-15 17:43:24 5857 5
原创 电脑上同时安装了Anaconda 和 python即有两个不同版本的python。使用pip命令安装库时默认位置的问题及解决方法
由于电脑上同时安装了Anaconda 和 python即有两个不同版本的python。在使用中用pip命令安装相关库也会安装在python中,而并非anaconda中。如图:打开cmd时直接输入python 显示的是自己安装的python。使用pip命令安装库默认安装位置及更改安装位置的解决方法。,查看Anaconda的位置,复制base后面的位置信息。此时就可以使用pip命令安装库到anaconda中。在使用的时候也就默认使用自己的python环境。在anaconda中使用pip 命令安装库的操作。
2023-04-09 15:26:34 3114 2
原创 Scala数据结构
Scala 是一种面向对象的编程语言,支持基于类和对象的数据结构。Scala 中的数据结构包括数组、元组、列表、集合、序列和映射等,同时也提供了可变和不可变两种类型的数据结构。
2023-04-06 06:00:00 576
原创 Scala基本数据类型和变量
Scala 的基本数据类型包括整型(Int)、长整型(Long)、短整型(Short)、字节(Byte)、浮点型(Float)、双精度浮点型(Double)、字符型(Char)和布尔型(Boolean),定义变量时需要指定变量的数据类型,并且变量可以是可变或不可变的。
2023-04-05 06:00:00 1078
原创 Scala简介及安装
Scala 是一种集成了面向对象编程和函数式编程思想的静态类型编程语言,它运行在 Java 虚拟机 (JVM) 上,可以与 Java 无缝地进行交互。Scala 由瑞士洛桑联邦理工学院 (EPFL) 的 Martin Odersky 等人开发,并于2003年首次发布。Scala 的名字来自于“Scalable Language”(可伸缩语言)的缩写。Scala 的语法比较复杂,但是也更加灵活和强大。Scala 在分布式系统、大数据处理和 Web 编程等方面都有广泛的应用。
2023-04-04 19:30:41 190
原创 代表性大数据技术
Spark已被广泛应用于机器学习、数据分析等领域。常见的NoSQL数据库包括MongoDB、Cassandra、Redis等,这些数据库具有高性能、可扩展性和高可用性等特点,被广泛应用于Web应用程序、移动应用、物联网等场景。Tableau支持多种数据源,包括Hadoop、MySQL、Hive等,同时提供交互式的分析和导出功能,被广泛应用于商业智能、数据分析等领域。易于调试和优化:Spark提供了广泛的调试和优化工具,这使得开发人员可以很方便地找到和解决代码中的问题,并提高程序的性能。
2023-04-04 06:00:00 305 1
原创 大数据的概念与关键技术
大数据是指在数据规模、数据存储、数据处理和应用场景方面超出传统数据处理能力范围的数据集合,具有“三V”特征,即数据量大(Volume)、处理速度快(Velocity)、数据类型多样(Variety)。为了应对这些挑战,发展了一些关键技术。
2023-04-03 19:53:28 371
原创 Python---学生管理系统
下面是一个简单的学生管理系统的示例代码,它包含了增加、删除、查询、修改和遍历学生信息的功能。这个示例使用了 Python 的字典来存储学生信息,并使用了一个 while 循环来提供交互式的命令行界面。
2022-12-27 15:22:00 121
原创 C语言 火车票信息管理系统
创建一个火车票信息管理系统。火车票信息管理系统的主要应实现的功能有录入班次信息,浏览班次信息,查询班次信息,修改班次信息,删除班次信息以及退出系统(保存数据)等。
2022-06-06 16:59:08 2216 5
基于python地铁数据可视化分析
2023-02-22
python简单的学生信息管理系统
2022-12-27
c语言 火车票信息管理系统
2022-06-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人