自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 基于python爬虫的热点时事新闻文章采集

2. 建立相关爬虫项目,从不同新闻网站下载热点新闻文章。(请附上详细代码、爬虫下载截图、运行效果等内容)简要介绍你在实验中使用到的各爬虫模块主要功能、爬虫下载的主要步骤、常见的反爬虫机制等?1. 安装Python、PyCharm开发环境,并下载爬虫所需的开发模块;找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。

2023-12-20 21:07:33 1585

原创 基于机器学习的掌纹识别与分类(PCA+SVM+KNN)

不同算法在掌纹识别方面均能发挥较好的作用。实验结果显示,各算法的准确率能稳定在96%-97%之间,并且相比于单特征识别,在识别准确率上有明显提升。影响结果的因素主要有Gabor角度的选择以及降维后的维数设置。对于不同模型的效果对比方面,SVM与KNN的效果表现相近,实验中发现KNN对于特征的鲁棒性稍强于SVM。同时,实验结果还表明KNN的不同距离度量在准确率上的差异并不明显。因此,在模型调优的过程中,应更侧重于如何提取更好、更有效的特征,这样才能有所突破。九、

2023-12-19 18:28:04 1114

原创 在hadoop或docker环境下基于kafka和flink的实时计算大屏展示

通过这种连接方式,我们可以利用Flink强大的实时计算能力,将从阿里云RDS的MySQL数据库中获取的数据进行实时处理和统计,并将结果高效地存储回MySQL数据库中。这样一来,我们就能够充分利用阿里云RDS的MySQL数据库的可靠性和稳定性,同时又能够借助Flink强大的计算能力,实现对数据的实时分析和处理。流计算系统选取的是flink,通过flink消费kafka生产的数据,并利用多线程的方式将计算结果保存的阿里云的Mysql数据库中去。它采用了分布式的发布/订阅模型,可以实现海量数据的高效传输和存储。

2023-12-19 18:16:14 1068

原创 基于Hadoop的MapReduce操作

只要这个比较器比较的两个key相同,他们就属于同一个组,它们的value放在一个value迭代器,而这个迭代器的key使用属于同一个组的所有key的第一个key。只要这个比较器比较的两个key相同,他们就属于同一个组,它们的value放在一个value迭代器,而这个迭代器的key使用属于同一个组的所有key的第一个key。二次排序:在mapreduce中,所有的key是需要被比较和排序的,并且是二次,先根据partitioner,再根据大小。例如,创建复合排序器,先按日期排序,再按时间戳排序。

2023-12-19 17:56:23 908

原创 基于Hadoop的SparkSQL

Spark SQL的前身是Shark,Shark是伯克利实验室Spark生态环境的组件之一,它能运行在Spark引擎上,从而使得SQL查询的速度得到10-100倍的提升,但是,随着Spark的发展,由于Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。若未启动,切换到/apps/hadoop/sbin目录下,启动Hadoop。

2023-12-19 17:38:27 776

原创 hadoop的基础操作——Hadoop中创建、修改、查看、删除文件夹及文件

在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。运行期通过命令也可以进入安全模式。执行hadoop jar命令,在hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar包,我们执行其中的worldcount类,数据来源为HDFS的/in目录,数据输出到HDFS的/out目录。

2023-12-19 17:18:50 2287

原创 基于hadoop的HBase JAVA API

同时,HBase的社区也将持续推动其开源发展,吸引更多的贡献者和用户参与进来,共同推动HBase的创新和演进。这个示例演示了如何使用HBase的Java API来创建一个名为"my_table"的表,插入一条数据(行键为"row1",列族为"cf",列限定符为"col1",值为"value1"),然后查询并打印出该数据的值,并最后删除该数据。HBase Java API是访问HBase数据库的主要方式之一,它可以通过Java代码直接访问HBase表,实现对表的管理、数据插入、查询、更新和删除等基本操作。

2023-12-15 22:53:12 1018 1

原创 基于hadoop的HDFS JAVA API

HDFS Java API是用于与HDFS进行交互的Java编程接口,它提供了一组类和方法,用于实现对HDFS文件的读取、写入、删除和修改等操作。通过使用HDFS Java API,开发人员可以轻松地实现对大规模数据集的读取、写入和处理,从而充分发挥HDFS在分布式数据存储和处理中的优势。在使用HDFS Java API之前,需要创建一个Configuration对象,并设置相关的Hadoop配置信息,如HDFS的地址、副本数量等。它提供了丰富的功能和方法,可以进行文件的创建、读取、写入、删除等操作。

2023-12-15 22:46:21 1009

原创 docker Desktop安装storm,并计算股票实时数据

3.在浏览器浏览locallhost:8080。2.在终端运行storm.yml文件。如果出现这个页面,storm搭建完成。1.编写Storm.yml文件。

2023-12-15 22:29:20 366

原创 基于hadoop或docker环境下,Kafka+flink+mysql+datav的实时数据大屏展示

6.利用flink-jdbc将数据保存到数据库。3.datav连接阿里云mysql数据库。2.搭建阿里云rds云数据库。4.编写kafka生产者代码。5.编写flink消费者代码。1.首先搭建kafka集群。

2023-12-15 22:11:58 792

原创 基于hadoop的KAFKA安装,及测试java api

启动 Kafka 服务时,会。将/data/kafka3 目录下 kafkalib 文件夹中的所有 jar 包,拷贝到 Eclipse 中。http://172.16.103.12:60000/allfiles/kafka3/kafkalib.tar.gz 网址上下载。3.切换到/data/kafka1 目录下,将 kafka 的压缩包 kafka_2.10-0.8.2.2.tgz。11.调用/apps/kafka/bin 目录下 kafka-console-producer.sh,来生产一些消。

2023-12-09 14:10:48 899

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除