中意灬-CSDN博客

原创基于CNN+ViT的蔬果图像分类实验

在图像分类任务中，深度学习方法已经取得了显著的进展，如残差神经网络（ResNet）,Vision Transformer展现了较强的性能。ResNet作为CNN下的网络架构，在局部特征提取方面具有优势，能够有效地捕捉图像中的空间结构信息。而Vision Transformer作为Transformer的变种，在捕捉全局依赖关系和建模长程依赖性方面的具有更好的优势。

2025-04-16 16:05:51 1105 1

RDD,全称Resilient Distributed Datasets，意为弹性分布式数据集。它是Spark中的一个基本概念，是对数据的抽象表示，是一种可分区、可并行计算的数据结构。RDD可以从外部存储系统中读取数据，也可以通过Spark中的转换操作进行创建和变换。RDD的特点是不可变性、可缓存性和容错性。同时，RDD提供了一种多种类型的操作，比如转换操作和行动操作，可以对RDD进行处理和计算。

2023-04-13 17:34:39 1912

原创世界杯数据可视化分析

世界杯已经告一段落，作为一个学习大数据的学生，就像借此来做做分析玩，本次数据来源于天池大赛官网，大家可以去天池大赛官网自己下载，也可以通过我的网盘，链接放下面了。

2023-01-15 20:20:40 9610 2

原创基于分布式数据库集群的大数据职位信息统计

试题内容及要求：学校委托你建设新的职业指导数据统计分析系统，以便及时让学生了解当前就业趋势。经过一番调研，你发现各招聘网站的职位信息多样，即使同一个网站的职位信息往往也具有多变的数据结构。这种情况下，建立传统的关系数据库进行数据存储和分析统计颇为不便。于是你决定选择MongoDB搭建数据非关系型数据库，这样通过爬虫采集的招聘职位信息可以直接存储而不需要受限于表结构。

2022-12-10 16:57:40 2150 3

原创 Mongodb实验二——分片集群搭建

mongodb分片式集群搭建本实验在一台电脑上完成，本人自己方法与标准方法略有差异，大家仁者见仁，同时可能你按照一样的步骤下来，会出现各种各样的错误，但希望大家懂得学会去查看日志，查看代码，懂得如何解决问题，这是一个有趣的过程，共勉。

2022-11-25 14:35:29 11477 7

原创程序设计竞赛笔记——埃式筛法

他从 22 开始，依次判断各个自然数是不是质数，如果是质数就会把这个数字装入口袋。但是口袋的承重量有限，不能装得下总和超过 LL 的质数。将这些质数从小往大输出，然后输出最多能装下的质数个数，所有数字之间有一空行。埃式筛法的思路非常简单，就是用已经筛选出来的素数去过滤所有能够被它整除的数。这些素数就像是筛子一样去过滤自然数，最后被筛剩下的数自然就是不能被前面素数整除的数，根据素数的定义，这些剩下的数也是素数。将这些质数从小往大输出，然后输出最多能装下的质数个数，所有数字之间有一空行。埃式筛法，一种一种在。

2022-11-11 17:23:21 542

原创给好朋友用代码画一个爱心吧

光棍节要到了，不给心意的人写个爱心代码？话不多说，上才艺，这里有两种爱心，一种是html，一种是用python编写的，都是动态的先看一下两种效果截图。这两个核心代码都不是自己所编写，都来至于网上，但经过个人修改的。

2022-11-10 18:16:48 11240 3

原创数据导入与预处理——实验2

目录前言实验内容任务一解答任务二解答（免责声明=-=）自己做的，所以可能会有问题，还望指出（改过后会实时更新），同样方法不止博主的一种，有很多，大家仁者见仁，最后如果想要ktr工程文件的，私信博主，有问题的也同样可以私信，点个赞谢谢了。1.某公司需要将各地分公司的客户信息进行汇总，现在已经搜集到两个分公司的客户列表： customer_info_1.txt customer_info_2.txt两个文件的格式一致，包含以下字段："customer_id"：客户号"first_name"：客户名"las

2022-11-03 15:04:39 2740 5

原创分布式数据库Mongodb——实验一

要求：- 服务器地址：localhost（127.0.0.1）- 服务端口：27027- 存储目录命名：你的姓名拼音首字母（比如：tgy)- 日志文件：放在存储目录下，以mongod.log命名然后去你的navicat里面创建一个mongodb连接，像这样。

2022-11-01 21:06:52 3023 7

原创一些错误日志（随时更新）

python编译内存分配小了，或者说你的数据大了，将内存分配大一点就好啦。

2022-10-17 15:45:10 717

原创数据导入与预处理——数据导入导出实验一

MySQL安装与下载，【字段名称,订单编号,下单日期,销售点,支付方式,发货日期,物流时限,客户编号,客户名称,客户类型,客户城市,客户省份,客户地区,产品编号,产品名称,产品分类,产品细类,金额,数量,折扣,利润,推销员,是否退货,财政年度】然而，各部门对数据的关注点不同，且各部门使用数据分析工具对数据的格式要求也不一样。因此，公司委托你开发一个数据转换系统，将订单数据库中的数据按照不同部门的需求进行转换和输出。点击文件，然后再点击新建，在点击数据库连接，出现如下页面，然后进行对呀配置。

2022-10-12 12:54:09 3985 2

原创基于LSTM的短期股票预测

RNN面临的较大问题是无法解决长跨度依赖问题，即后面节点相对于跨度很大的前面时间节点的信息感知能力太弱，如下图中的两句话：左上角的句子中sky可以由较短跨度的词预测出来，而右下角中的French与较长跨度之间的France有关系，即长跨度依赖，比较难预测。其中，units为神经元个数，activation为激活函数，默认为tanh，return_sequences为是否全部时刻返回输出，默认为False。长跨度依赖的根本问题在于，多阶段的反向传播后导致梯度消失、梯度爆炸。可以看出，只有三个时间点时，

2022-10-10 14:53:21 4708 3

原创基于RNN的短期股票预测

本文数据集是通过python中tushare模块下载的股票日k线数据，本次数据只用来了其中的开盘价格这里注意， tushare版本需大于1.2.10以上方法只需要在第一次或者token失效后调用，完成调取tushare数据凭证的设置，正常情况下不需要重复设置。也可以忽略此步骤，直接用pro_api('your token')完成初始化，但这里的token需要自己去官网申请（注册即可得到）get_k_data含义是获取k线数据，所以起了这么一个简单的名称。虽然一贯的不标准，不规范，但主要看气质，主要看数据。

2022-09-14 12:24:49 3236 4

原创 Tensorflow笔记———循环神经网络RNN

如下图，左图一共要送入RNN层两组数据，每组数据经过一个时间步就会得到一个输出结果，每个时间步送入三个数值，则输入循环层的数据维度就是[2,1,3]；然后在按照顺序将time输入RNN，得到输出02，这时我们会发现前面输入的what对此时输入的time产生了影响，如图中隐藏层中有一般是黑色即是第一步输入what产生的影响。通过上面的例子，我们已经发现，短期的记忆影响较大（如橙色区域），但是长期的记忆影响就很小（如黑色和绿色区域），这就是 RNN 存在的短期记忆问题。典型的时序数据像：股价，天气，文本。

2022-09-12 15:40:10 1795

原创 Tensorflow笔记——卷积神经网络

每个神经元与前后相邻的每一个神经元都有连接关系。（可以实现分类和预测）：（前层*后层+后层）如下面构建的这个全连接神经网络，其参数量为28*28*128w+128b+128*10w+10=101770个而上面的代码就是Mnist数据集分类的全连接神经网络模型，而在实际应用中，我们所处理的图像不是灰度图，大部分是彩色图，这样会涉及到更多的参数，虽然全连接网络一般被认为是分类预测的最佳网络，但是当待优化参数过多，容易导致模型过拟合。

2022-09-07 14:14:38 3575 1

原创 Tensorflow笔记——基于Mnist数据集图片分类的神经网络

本文基于Mnist图像搭建其自己所需数据集，从而对其数据集进行保存，然后对模型进行训练，保存其最优参数，断点续训，实现acc，loss的可视化，对未知图片进行处理然后带入预测。

2022-08-31 01:31:42 1180

原创 Tensorflow学习笔记——搭建神经网络

六步法搭建神经网络，介绍了相关函数用法，分别运用了鸢尾花数据集与fashion_mnist数据集举例

2022-08-25 15:15:27 4562 1

原创 Tensorflow笔记——神经网络优化

了解神经网络优化过程，了解不同激活函数。

2022-08-23 13:15:27 2443 1

原创 TensorFlow笔记——基本函数及概念

TensorFlow是一个端到端开源机器学习平台。它拥有一个全面而灵活的生态系统，其中包含各种工具、库和社区资源，可助力研究人员推动先进机器学习技术的发展，并使开发者能够轻松地构建和部署由机器学习提供支持的应用，本文基于python对其TensorFlow进行了运用。神经网络，也称为人工神经网络(ANN)或模拟神经网络(SNN)，是的子集，并且是算法的核心。其名称和结构是受人类大脑的启发，模仿了生物神经元信号相互传递的方式。...

2022-07-24 21:35:50 1537

原创 python实现线性回归

本文用sklearn库实现简单线性回归（普通最小二乘法，岭回归，多项式回归，多元回归），以下是相关代码，所用数据库为sklearn自带，由于是自带数据库，可能拟合效果会很差，但只作为学习其方法，有所错误还望斧正。岭回归多项式回归多元回归拟合出来绘图应该是个平面，但这里就大概意思一下吧，大家把他当作一个平面，欸嘿嘿。......

2022-07-11 23:53:19 10408 2

原创 python多因素电力预测——基于LSTM神经网络

一个很简易的多因素预测电力模型，所用数据量很少，所以效果不是很好，如果数据量大，可能最后的模型精度和效果会不错，看看就行了，写的很乱（数据来源于泰迪杯最先公布的数据）。# -*- coding: utf-8 -*-# @Time : 2022/3/26 15:13# @Author : 中意灬# @FileName: 多变量.py# @Software: PyCharmimport numpy as npimport matplotlib.pyplot as pltimport seab

2022-05-08 12:57:07 4366 8

原创 python短期电力预测——基于LSTM神经网络

LSTM神经网络，一种中长期时间序列预测模型，通过长期得到数据来预测未来短期的结果，对中长期预测效果很差，本文只介绍单变量预测，即通过多天的电力数据来预测短期的电力，影响因素只有时间，不考虑其他影响因素（本文只是博主自己为了应付本次泰迪杯所自己去学习而所写的，也只供自己学习和便于查看，有所错误还望斧正），本次所用的数据来自泰迪杯官网所公布的部分数据，大概长这样整个的步骤流程如下：1.数据清洗缺失值处理（先进行缺失值查看，有的话就处理，没有就不处理）异常值处理（先进行异常值查看，有的话几.

2022-04-16 16:06:54 21228 50

原创数据结构与算法实验

本文是自己数据结构与算法的实验作业，只为了便于自己查看和学习，有问题的地方还望斧正，所用软件为devc++，以下代码拿去都能直接运行。目录1. VC 编程与测试初步2. 实现顺序表的各种基本运算3. 实现单链表的各种基本运算4. 线性表及其应用-----约瑟夫环5. 栈与队列的各种基本运算6. 栈与队列应用(I)-----算术表达式求值7. 栈与队列应用(II)----迷宫问题8. 实现串的各种基本运算1. VC 编程与测试初步 1.1 熟悉 VC++编.

2022-04-14 11:39:06 986

原创 python—sklearn特征提取

目录一.字典特征值提取二.英文文本特征值提取三.中文文本特征值提取需要导入的包from sklearn.feature_extraction import DictVectorizer#用于字典特征值提起from sklearn.feature_extraction.text import CountVectorizer#用于文本提取"""用于中文分词"""import jieba.analyseimport jieba特征提取官方教程网址：https://scikit

2022-03-20 18:56:55 3372 1

原创 python用jieba模块对QQ聊天记录分词统计，可视化和词云生成

《关于我和我的怨种朋友一年只知道哈哈哈，呜呜呜，救命，这个那个这件事》就有天和朋友聊天，她突然说了句，我以后再也不做搞笑女了，我说咋啦，她说她朋友说她天天喊救命，她害怕有一天真遇上啥事了喊救命，你们来句哈哈哈笑死。于是我就想用python来统计一下我和我朋友这一年来最喜欢说的高频词汇运用了python中jieba这个模块，大家可以自己下载代码...

2022-02-17 19:20:20 2279 1

原创用python实现将pdf转化为有声读物

现在看小说已经有了听书这个功能了，但是有时候你想看的书的听书功能收费，这时候可能大家就只能老老实实选择看或者付费听。（还能拿来练英语听力欸嘿嘿）于是我想到，可不可以用python来实现语言播报呢，说干就干，通过上网搜索，发现python中pyttsx3这个模块可以实现语音播报，而pdfplumber或PyPDF2模块实现pdf转化为文字，我采用的是pdfplumber这个模块。首先我们先下载模块，可以自己pip install 模块名，或者通过清华源下载（会更快）清华源地址：https.

2022-02-12 01:58:04 1401

原创算法入门——散列表

何为散列表散列表：顾名思义也就是离散的或者零散，即不连贯的列表，也可以类比于离散数组。散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。给定表M，存在函数f(key)，对任意给定的关键字值key，代入函数后若能得到包含该关键字的记录在表中的地址，则称表M为哈希(Hash）表，函数f(key)为哈希(Hash) 函数。

2022-02-11 14:20:30 711

原创 Python爬虫学以致用，嘿嘿

因为放假回到了老家，可能是在镇上的缘故，治安管的可能不是那么严，每天晚上都会有鬼火少年出来炸街，md，有时候半夜两三点突然炸一下街，声音贼大，但是吧，声音贼大，车速还没我跑的快天菩萨，真的烦死人了，一声砰，一下抖，家人们就说连续几天烦死了于是我就想写篇文章去我们当地的"情报网"（就是那种地方自己人吐槽或者互助的网），希望大家一起对这种行为控诉一波，也希望家里有鬼火少年的家长不要天天麻将馆007，多看看你孩子在街上放炮。于是我就写了篇文章去控述，但是吧，担心浏览量低了，大家看不到，于是就想

2022-02-07 20:49:59 2614 5

原创算法入门——分而治之思想之快速排序与归并排序

分而治之分而治之（divide and conquer，D&C）——一种著名的递归式问题解决方法。所谓“分而治之” 就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的解，把各部分的解组成整个问题的解，这种朴素的思想来源于人们生活与工作的经验，也完全适合于技术领域。诸如软件的体系结构设计、模块化设计都是分而治之的具体表现。使用D&C解决问题的过程包括两个步骤：（1）找出基线条件（终止递归的条件），这种条件尽可能简单。（2

2022-02-07 19:39:45 1487

原创算法入门——递归与栈

目录递归栈栈的操作调用栈python中实现一个栈总结递归什么是递归？递归就是方法自己调用自己。比如下面这个例子def fun(n): print(n) fun(n-1)if __name__ == '__main__': fun(10)它就是个递归函数，但是你会发现它会一直运行下去109876.....但这样就会导致很多错误，我想没人会要一个无线循环的函数吧，所以我们需要有跳出循环的条件，正因为如此，每个递归函...

2022-02-05 02:33:23 3390 1

原创算法入门——数组，链表，选择排序

内存的工作原理大家逛超市的时候，应该都看见门口有储存柜，进去逛超市时，就把东西存入储存柜，如果你东西很多，就可能需要开两个柜子来放你的东西，然后你就只需要拿着储存柜小票轻轻松松去逛超市了，等逛完超市，你凭借小票在把自己的东西拿出来。其实计算机内存的工作原理大致就是这样，。计算机就是超市门口这一堆储物柜的集合，每个单独的储物柜都有对应的小票，都有它们的地址。当我们需要将数据存储到内存时，我们请求到计算机，计算机再分配给我们一片空间用于存储。数组数组大家都有一定了解了，在python中的列表

2022-01-30 01:23:57 1508

原创算法简介——二分查找，时间复杂度，空间复杂度

文章目录前言二分查找时间复杂度大O表示法空间复杂度小结前言算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法是一组完成任务的指令。任何代码片段都可视为算法。二分查找我相信大家可

2022-01-26 17:04:58 5493

空空如也

空空如也