淘气的马子-CSDN博客

原创基于python爬虫的热点时事新闻文章采集

2. 建立相关爬虫项目，从不同新闻网站下载热点新闻文章。(请附上详细代码、爬虫下载截图、运行效果等内容)简要介绍你在实验中使用到的各爬虫模块主要功能、爬虫下载的主要步骤、常见的反爬虫机制等？1. 安装Python、PyCharm开发环境，并下载爬虫所需的开发模块；找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。

2023-12-20 21:07:33 2531

原创基于机器学习的掌纹识别与分类（PCA+SVM+KNN）

不同算法在掌纹识别方面均能发挥较好的作用。实验结果显示，各算法的准确率能稳定在96%-97%之间，并且相比于单特征识别，在识别准确率上有明显提升。影响结果的因素主要有Gabor角度的选择以及降维后的维数设置。对于不同模型的效果对比方面，SVM与KNN的效果表现相近，实验中发现KNN对于特征的鲁棒性稍强于SVM。同时，实验结果还表明KNN的不同距离度量在准确率上的差异并不明显。因此，在模型调优的过程中，应更侧重于如何提取更好、更有效的特征，这样才能有所突破。九、

2023-12-19 18:28:04 2151 1

原创在hadoop或docker环境下基于kafka和flink的实时计算大屏展示

通过这种连接方式，我们可以利用Flink强大的实时计算能力，将从阿里云RDS的MySQL数据库中获取的数据进行实时处理和统计，并将结果高效地存储回MySQL数据库中。这样一来，我们就能够充分利用阿里云RDS的MySQL数据库的可靠性和稳定性，同时又能够借助Flink强大的计算能力，实现对数据的实时分析和处理。流计算系统选取的是flink，通过flink消费kafka生产的数据，并利用多线程的方式将计算结果保存的阿里云的Mysql数据库中去。它采用了分布式的发布/订阅模型，可以实现海量数据的高效传输和存储。

2023-12-19 18:16:14 1463

原创基于Hadoop的MapReduce操作

只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。二次排序：在mapreduce中，所有的key是需要被比较和排序的，并且是二次，先根据partitioner，再根据大小。例如，创建复合排序器，先按日期排序，再按时间戳排序。

2023-12-19 17:56:23 1089

原创基于Hadoop的SparkSQL

Spark SQL的前身是Shark，Shark是伯克利实验室Spark生态环境的组件之一，它能运行在Spark引擎上，从而使得SQL查询的速度得到10-100倍的提升，但是，随着Spark的发展，由于Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。若未启动，切换到/apps/hadoop/sbin目录下，启动Hadoop。

2023-12-19 17:38:27 884

原创 hadoop的基础操作——Hadoop中创建、修改、查看、删除文件夹及文件

在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。运行期通过命令也可以进入安全模式。执行hadoop jar命令，在hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar包，我们执行其中的worldcount类，数据来源为HDFS的/in目录，数据输出到HDFS的/out目录。

2023-12-19 17:18:50 7803

原创基于hadoop的HBase JAVA API

同时，HBase的社区也将持续推动其开源发展，吸引更多的贡献者和用户参与进来，共同推动HBase的创新和演进。这个示例演示了如何使用HBase的Java API来创建一个名为"my_table"的表，插入一条数据（行键为"row1"，列族为"cf"，列限定符为"col1"，值为"value1"），然后查询并打印出该数据的值，并最后删除该数据。HBase Java API是访问HBase数据库的主要方式之一，它可以通过Java代码直接访问HBase表，实现对表的管理、数据插入、查询、更新和删除等基本操作。

2023-12-15 22:53:12 1377 1

原创基于hadoop的HDFS JAVA API

HDFS Java API是用于与HDFS进行交互的Java编程接口，它提供了一组类和方法，用于实现对HDFS文件的读取、写入、删除和修改等操作。通过使用HDFS Java API，开发人员可以轻松地实现对大规模数据集的读取、写入和处理，从而充分发挥HDFS在分布式数据存储和处理中的优势。在使用HDFS Java API之前，需要创建一个Configuration对象，并设置相关的Hadoop配置信息，如HDFS的地址、副本数量等。它提供了丰富的功能和方法，可以进行文件的创建、读取、写入、删除等操作。

2023-12-15 22:46:21 1125

原创 docker Desktop安装storm,并计算股票实时数据

3.在浏览器浏览locallhost:8080。2.在终端运行storm.yml文件。如果出现这个页面，storm搭建完成。1.编写Storm.yml文件。

2023-12-15 22:29:20 716

原创基于hadoop或docker环境下，Kafka+flink+mysql+datav的实时数据大屏展示

6.利用flink-jdbc将数据保存到数据库。3.datav连接阿里云mysql数据库。2.搭建阿里云rds云数据库。4.编写kafka生产者代码。5.编写flink消费者代码。1.首先搭建kafka集群。

2023-12-15 22:11:58 1257

原创基于hadoop的KAFKA安装，及测试java api

启动 Kafka 服务时，会。将/data/kafka3 目录下 kafkalib 文件夹中的所有 jar 包，拷贝到 Eclipse 中。http://172.16.103.12:60000/allfiles/kafka3/kafkalib.tar.gz 网址上下载。3.切换到/data/kafka1 目录下，将 kafka 的压缩包 kafka_2.10-0.8.2.2.tgz。11.调用/apps/kafka/bin 目录下 kafka-console-producer.sh，来生产一些消。

2023-12-09 14:10:48 1013