自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 Spark编程基础-RDD

RDD,全称Resilient Distributed Datasets,意为弹性分布式数据集。它是Spark中的一个基本概念,是对数据的抽象表示,是一种可分区、可并行计算的数据结构。RDD可以从外部存储系统中读取数据,也可以通过Spark中的转换操作进行创建和变换。RDD的特点是不可变性、可缓存性和容错性。同时,RDD提供了一种多种类型的操作,比如转换操作和行动操作,可以对RDD进行处理和计算。

2023-04-13 17:34:39 1724 1

原创 世界杯数据可视化分析

世界杯已经告一段落,作为一个学习大数据的学生,就像借此来做做分析玩,本次数据来源于天池大赛官网,大家可以去天池大赛官网自己下载,也可以通过我的网盘,链接放下面了。

2023-01-15 20:20:40 7999 2

原创 基于分布式数据库集群的大数据职位信息统计

试题内容及要求:学校委托你建设新的职业指导数据统计分析系统,以便及时让学生了解当前就业趋势。经过一番调研,你发现各招聘网站的职位信息多样,即使同一个网站的职位信息往往也具有多变的数据结构。这种情况下,建立传统的关系数据库进行数据存储和分析统计颇为不便。于是你决定选择MongoDB搭建数据非关系型数据库,这样通过爬虫采集的招聘职位信息可以直接存储而不需要受限于表结构。

2022-12-10 16:57:40 2036 3

原创 Mongodb实验二——分片集群搭建

mongodb分片式集群搭建本实验在一台电脑上完成,本人自己方法与标准方法略有差异,大家仁者见仁,同时可能你按照一样的步骤下来,会出现各种各样的错误,但希望大家懂得学会去查看日志,查看代码,懂得如何解决问题,这是一个有趣的过程,共勉。

2022-11-25 14:35:29 11136 7

原创 程序设计竞赛笔记——埃式筛法

他从 22 开始,依次判断各个自然数是不是质数,如果是质数就会把这个数字装入口袋。但是口袋的承重量有限,不能装得下总和超过 LL 的质数。将这些质数从小往大输出,然后输出最多能装下的质数个数,所有数字之间有一空行。埃式筛法的思路非常简单,就是用已经筛选出来的素数去过滤所有能够被它整除的数。这些素数就像是筛子一样去过滤自然数,最后被筛剩下的数自然就是不能被前面素数整除的数,根据素数的定义,这些剩下的数也是素数。将这些质数从小往大输出,然后输出最多能装下的质数个数,所有数字之间有一空行。埃式筛法,一种一种在。

2022-11-11 17:23:21 440

原创 给好朋友用代码画一个爱心吧

光棍节要到了,不给心意的人写个爱心代码?话不多说,上才艺,这里有两种爱心,一种是html,一种是用python编写的,都是动态的先看一下两种效果截图。这两个核心代码都不是自己所编写,都来至于网上,但经过个人修改的。

2022-11-10 18:16:48 10886 3

原创 数据导入与预处理——实验2

目录 前言实验内容任务一解答任务二解答(免责声明=-=)自己做的,所以可能会有问题,还望指出(改过后会实时更新),同样方法不止博主的一种,有很多,大家仁者见仁,最后如果想要ktr工程文件的,私信博主,有问题的也同样可以私信,点个赞谢谢了。1.某公司需要将各地分公司的客户信息进行汇总,现在已经搜集到两个分公司的客户列表: customer_info_1.txt customer_info_2.txt两个文件的格式一致,包含以下字段:"customer_id": 客户号"first_name": 客户名"las

2022-11-03 15:04:39 2457 5

原创 分布式数据库Mongodb——实验一

要求:- 服务器地址:localhost(127.0.0.1)- 服务端口:27027- 存储目录命名:你的姓名拼音首字母(比如:tgy)- 日志文件:放在存储目录下,以mongod.log命名然后去你的navicat里面创建一个mongodb连接,像这样。

2022-11-01 21:06:52 2768 7

原创 一些错误日志(随时更新)

python编译内存分配小了,或者说你的数据大了,将内存分配大一点就好啦。

2022-10-17 15:45:10 600

原创 数据导入与预处理——数据导入导出实验一

MySQL安装与下载,【字段名称,订单编号,下单日期,销售点,支付方式,发货日期,物流时限,客户编号,客户名称,客户类型,客户城市,客户省份,客户地区,产品编号,产品名称,产品分类,产品细类,金额,数量,折扣,利润,推销员,是否退货,财政年度】然而,各部门对数据的关注点不同,且各部门使用数据分析工具对数据的格式要求也不一样。因此,公司委托你开发一个数据转换系统,将订单数据库中的数据按照不同部门的需求进行转换和输出。点击文件,然后再点击新建,在点击数据库连接,出现如下页面,然后进行对呀配置。

2022-10-12 12:54:09 2983 2

原创 基于LSTM的短期股票预测

RNN面临的较大问题是无法解决长跨度依赖问题,即后面节点相对于跨度很大的前面时间节点的信息感知能力太弱,如下图中的两句话:左上角的句子中sky可以由较短跨度的词预测出来,而右下角中的French与较长跨度之间的France有关系,即长跨度依赖,比较难预测。其中,units为神经元个数,activation为激活函数,默认为tanh,return_sequences为是否全部时刻返回输出,默认为False。长跨度依赖的根本问题在于,多阶段的反向传播后导致梯度消失、梯度爆炸。可以看出,只有三个时间点时,

2022-10-10 14:53:21 4339 3

原创 基于RNN的短期股票预测

本文数据集是通过python中tushare模块下载的股票日k线数据,本次数据只用来了其中的开盘价格这里注意, tushare版本需大于1.2.10以上方法只需要在第一次或者token失效后调用,完成调取tushare数据凭证的设置,正常情况下不需要重复设置。也可以忽略此步骤,直接用pro_api('your token')完成初始化,但这里的token需要自己去官网申请(注册即可得到)get_k_data含义是获取k线数据,所以起了这么一个简单的名称。虽然一贯的不标准,不规范,但主要看气质,主要看数据。

2022-09-14 12:24:49 2900 4

原创 Tensorflow笔记———循环神经网络RNN

如下图,左图一共要送入RNN层两组数据,每组数据经过一个时间步就会得到一个输出结果,每个时间步送入三个数值,则输入循环层的数据维度就是[2,1,3];然后在按照顺序将time输入RNN,得到输出02,这时我们会发现前面输入的what对此时输入的time产生了影响,如图中隐藏层中有一般是黑色即是第一步输入what产生的影响。通过上面的例子,我们已经发现,短期的记忆影响较大(如橙色区域),但是长期的记忆影响就很小(如黑色和绿色区域),这就是 RNN 存在的短期记忆问题。典型的时序数据像:股价,天气,文本。

2022-09-12 15:40:10 1482

原创 Tensorflow笔记——卷积神经网络

每个神经元与前后相邻的每一个神经元都有连接关系。(可以实现分类和预测):(前层*后层+后层)如下面构建的这个全连接神经网络,其参数量为28*28*128w+128b+128*10w+10=101770个而上面的代码就是Mnist数据集分类的全连接神经网络模型,而在实际应用中,我们所处理的图像不是灰度图,大部分是彩色图,这样会涉及到更多的参数,虽然全连接网络一般被认为是分类预测的最佳网络,但是当待优化参数过多,容易导致模型过拟合。

2022-09-07 14:14:38 3306 1

原创 Tensorflow笔记——基于Mnist数据集图片分类的神经网络

本文基于Mnist图像搭建其自己所需数据集,从而对其数据集进行保存,然后对模型进行训练,保存其最优参数,断点续训,实现acc,loss的可视化,对未知图片进行处理然后带入预测。

2022-08-31 01:31:42 1039

原创 Tensorflow学习笔记——搭建神经网络

六步法搭建神经网络,介绍了相关函数用法,分别运用了鸢尾花数据集与fashion_mnist数据集举例

2022-08-25 15:15:27 4259 1

原创 Tensorflow笔记——神经网络优化

了解神经网络优化过程,了解不同激活函数。

2022-08-23 13:15:27 2259 1

原创 TensorFlow笔记——基本函数及概念

TensorFlow是一个端到端开源机器学习平台。它拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用,本文基于python对其TensorFlow进行了运用。神经网络,也称为人工神经网络(ANN)或模拟神经网络(SNN),是的子集,并且是算法的核心。其名称和结构是受人类大脑的启发,模仿了生物神经元信号相互传递的方式。...

2022-07-24 21:35:50 1420

原创 python实现线性回归

本文用sklearn库实现简单线性回归(普通最小二乘法,岭回归,多项式回归,多元回归),以下是相关代码,所用数据库为sklearn自带,由于是自带数据库,可能拟合效果会很差,但只作为学习其方法,有所错误还望斧正。 岭回归 多项式回归 多元回归拟合出来绘图应该是个平面,但这里就大概意思一下吧,大家把他当作一个平面,欸嘿嘿。......

2022-07-11 23:53:19 10149 2

原创 python多因素电力预测——基于LSTM神经网络

一个很简易的多因素预测电力模型,所用数据量很少,所以效果不是很好,如果数据量大,可能最后的模型精度和效果会不错,看看就行了,写的很乱(数据来源于泰迪杯最先公布的数据)。# -*- coding: utf-8 -*-# @Time : 2022/3/26 15:13# @Author : 中意灬# @FileName: 多变量.py# @Software: PyCharmimport numpy as npimport matplotlib.pyplot as pltimport seab

2022-05-08 12:57:07 3894 8

原创 python短期电力预测——基于LSTM神经网络

LSTM神经网络,一种中长期时间序列预测模型,通过长期得到数据来预测未来短期的结果,对中长期预测效果很差,本文只介绍单变量预测,即通过多天的电力数据来预测短期的电力,影响因素只有时间,不考虑其他影响因素(本文只是博主自己为了应付本次泰迪杯所自己去学习而所写的,也只供自己学习和便于查看,有所错误还望斧正),本次所用的数据来自泰迪杯官网所公布的部分数据,大概长这样整个的步骤流程如下:1.数据清洗缺失值处理(先进行缺失值查看,有的话就处理,没有就不处理) 异常值处理(先进行异常值查看,有的话几.

2022-04-16 16:06:54 16081 48

原创 数据结构与算法实验

本文是自己数据结构与算法的实验作业,只为了便于自己查看和学习,有问题的地方还望斧正,所用软件为devc++,以下代码拿去都能直接运行。目录1. VC 编程与测试初步2. 实现顺序表的各种基本运算3. 实现单链表的各种基本运算4. 线性表及其应用-----约瑟夫环5. 栈与队列的各种基本运算6. 栈与队列应用(I)-----算术表达式求值7. 栈与队列应用(II)----迷宫问题8. 实现串的各种基本运算1. VC 编程与测试初步 1.1 熟悉 VC++编.

2022-04-14 11:39:06 879

原创 python—sklearn特征提取

目录一.字典特征值提取二.英文文本特征值提取三.中文文本特征值提取需要导入的包from sklearn.feature_extraction import DictVectorizer#用于字典特征值提起from sklearn.feature_extraction.text import CountVectorizer#用于文本提取"""用于中文分词"""import jieba.analyseimport jieba特征提取官方教程网址:https://scikit

2022-03-20 18:56:55 3146 1

原创 python用jieba模块对QQ聊天记录分词统计,可视化和词云生成

《关于我和我的怨种朋友一年只知道哈哈哈,呜呜呜,救命,这个那个这件事》就有天和朋友聊天,她突然说了句,我以后再也不做搞笑女了,我说咋啦,她说她朋友说她天天喊救命,她害怕有一天真遇上啥事了喊救命,你们来句哈哈哈笑死。于是我就想用python来统计一下我和我朋友这一年来最喜欢说的高频词汇运用了python中jieba这个模块,大家可以自己下载代码...

2022-02-17 19:20:20 2038 1

原创 用python实现将pdf转化为有声读物

现在看小说已经有了听书这个功能了,但是有时候你想看的书的听书功能收费,这时候可能大家就只能老老实实选择看或者付费听。(还能拿来练英语听力欸嘿嘿)于是我想到,可不可以用python来实现语言播报呢,说干就干,通过上网搜索,发现python中pyttsx3这个模块可以实现语音播报,而pdfplumber或PyPDF2模块实现pdf转化为文字,我采用的是pdfplumber这个模块。首先我们先下载模块,可以自己pip install 模块名,或者通过清华源下载(会更快)清华源地址:https.

2022-02-12 01:58:04 1187

原创 算法入门——散列表

何为散列表散列表:顾名思义也就是离散的或者零散,即不连贯的列表,也可以类比于离散数组。散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。给定表M,存在函数f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数f(key)为哈希(Hash) 函数。

2022-02-11 14:20:30 610

原创 Python爬虫学以致用,嘿嘿

因为放假回到了老家,可能是在镇上的缘故,治安管的可能不是那么严,每天晚上都会有鬼火少年出来炸街,md,有时候半夜两三点突然炸一下街,声音贼大,但是吧,声音贼大,车速还没我跑的快天菩萨,真的烦死人了,一声砰,一下抖,家人们就说连续几天烦死了于是我就想写篇文章去我们当地的"情报网"(就是那种地方自己人吐槽或者互助的网),希望大家一起对这种行为控诉一波,也希望家里有鬼火少年的家长不要天天麻将馆007,多看看你孩子在街上放炮。于是我就写了篇文章去控述,但是吧,担心浏览量低了,大家看不到,于是就想

2022-02-07 20:49:59 2552 5

原创 算法入门——分而治之思想之快速排序与归并排序

分而治之分而治之(divide and conquer,D&C)——一种著名的递归式问题解决方法。所谓“分而治之” 就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的解,把各部分的解组成整个问题的解,这种朴素的思想来源于人们生活与工作的经验,也完全适合于技术领域。诸如软件的体系结构设计、模块化设计都是分而治之的具体表现。使用D&C解决问题的过程包括两个步骤:(1)找出基线条件(终止递归的条件),这种条件尽可能简单。(2

2022-02-07 19:39:45 1370

原创 算法入门——递归与栈

目录递归栈栈的操作调用栈python中实现一个栈总结递归什么是递归?递归就是方法自己调用自己。比如下面这个例子def fun(n): print(n) fun(n-1)if __name__ == '__main__': fun(10)它就是个递归函数,但是你会发现它会一直运行下去109876.....但这样就会导致很多错误,我想没人会要一个无线循环的函数吧,所以我们需要有跳出循环的条件,正因为如此,每个递归函...

2022-02-05 02:33:23 3220 1

原创 算法入门——数组,链表,选择排序

内存的工作原理大家逛超市的时候,应该都看见门口有储存柜,进去逛超市时,就把东西存入储存柜,如果你东西很多,就可能需要开两个柜子来放你的东西,然后你就只需要拿着储存柜小票轻轻松松去逛超市了,等逛完超市,你凭借小票在把自己的东西拿出来。其实计算机内存的工作原理大致就是这样,。计算机就是超市门口这一堆储物柜的集合,每个单独的储物柜都有对应的小票,都有它们的地址。当我们需要将数据存储到内存时,我们请求到计算机,计算机再分配给我们一片空间用于存储。数组数组大家都有一定了解了,在python中的列表

2022-01-30 01:23:57 1401

原创 算法简介——二分查找,时间复杂度,空间复杂度

文章目录前言二分查找时间复杂度大O表示法空间复杂度小结前言算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法是一组完成任务的指令。任何代码片段都可视为算法。二分查找我相信大家可

2022-01-26 17:04:58 5177

原创 基于pandas的成绩分析可视化

文章目录各科目挂科人数分析各科挂科人数占比及各班挂科人数各班绩点分布班级平均绩点单人挂科数量分析最终成绩分析报告期末考试结束,辅导员让我做个成绩分析,于是就简单的写个python做做,写的很乱,将就看吧。用到了pandas,pyecharts,csv,matplotlib这些包我的数据样本为这样(一个班的数据为一个表):各科目挂科人数分析# @Time:2022/1/2123:35# @Author:中意灬# @File:各班挂科人数分析.py# @ps:tutu qqnum:211747

2022-01-24 15:14:34 5361 5

原创 运用Selenium Webdriver模块进行电影票房的爬取,并进行简单的绘图分析

文章目录1.Selenium介绍2.Selenium Webdriver的优缺点优点缺点3.Selenium Webdriver的一些基础操作4.准备步骤5.步骤获取数据并保存绘图最终的运行结果1.Selenium介绍首先我们先来了解一下什么是Selenium。Selenium是一个自动化测试工具,它模拟人的行为来操作浏览器,对于一些动态网页或者内容加密的网页,运用Selenium Webdriver则可以较好的实现内容的抓取。2.Selenium Webdriver的优缺点优点易于学习,抓取过

2022-01-17 19:03:57 1802

原创 Python分别用单线程,多线程,异步协程爬取一部小说,最快仅需要5s

文章目录单线程爬取多线程爬取异步协程爬取本文运用了三种方式爬取一整部小说,分别运用了单线程爬取,多线程爬取和异步协程爬取。小说网址:`http://www.doupo321.com/doupocangqiong/`网页很简单,也不用过多分析,内容都在网页源代码中,就是一个多级链接爬虫,步骤就是先爬取到网页下的子链接,然后通过子链接爬取到每章小说内容。因为这个网页的源代码都很规整,所有我们用xpath来匹配,当然你熟悉正则或者bs4也可以用bs4来匹配。然后我们就开始写代码吧。单线程爬取# @

2022-01-16 12:48:08 2347 7

原创 Python爬虫之协程

何为协程,协程就是当程序遇见了IO(输入,输出)操作时,可以选择性的切换到其他任务上,在微观上它就是一个任务一个任务的切换(切换条件一般就是IO操作),在宏观上,我们看到的就是多任务一起执行。像下面个例子,是一个单任务同步函数。import timedef fun(): print('涂涂傻') time.sleep(3) print('涂涂真的傻')if __name__ == '__main__': fun()结果:涂涂傻(等三秒)涂涂真的傻其中的t

2022-01-12 00:17:29 2101 2

原创 python爬虫之多线程扒光北京新发地菜价

所实验网址:http://www.xinfadi.com.cn/priceDetail.html首先对网页进行分析:但是很显然,这些内容都不存在网页的源代码,所以这时候我们需要进行抓包然后我们观察这个的url和请求方式,可以发现这是post类型,于是我们去找到他要传入的参数我们通过点击下一页,具体看看哪些是需要传入的我们会发现,current是我们需要具体传入的参数,而他就是代表页数,而这个limit是表示每页出现的数据量只能有20条。我们分析完网页后,我们就可以开始编写程序了,那

2021-12-17 18:05:35 1946 2

原创 python绘图练习

1.绘制重庆24小时的气温图像的折线图,有标题x轴y轴并将最低气温最高气温单独标出# @Time:2021/12/1014:18# @Author:中意灬# @File:天气.py# @ps:tutu qqnum:2117472285from matplotlib import pyplot as pltimport numpy as npfrom scipy import interpolatey=[9,10,12,13,14,13,13,14,15,16,14,15,15,15,15,

2021-12-13 15:01:56 3461 2

原创 定义一个冰箱类,使其能够检查是否存在某种食材或某一些数量的系列食材,并能以一次单个或多个的方式,添加或取出其中的食材,取食材时若数量不足时,应给出提示信息。

代码:# @Time:2021/12/622:51# @Author:中意灬# @File:冰箱.py# @ps:tutu qqnum:21174722class Fridge(object): """定义一个冰箱类,使其能够检查是否存在某种食材或某一些数量的系列食材,并能以一次单个或多个的方式,添加或取出其中的食材,取食材时若数量不足时,应给出提示信息。""" items={} def __init__(self,food_ingredient_dict):

2021-12-13 13:06:48 511

原创 python编程基础及应用(重庆大学):15-1,15-2,17-1,17-2 图像和numpy的运用

15-1 通过linspace()及ufunc函数计算并绘制下述数学的函数图。x的取值范围为[-1000,+1000]。 y=2x^2+30x-11.5代码:import numpy as npfrom matplotlib import pyplot as pltx=np.linspace(-1000,1000,1000)#范围-1000到1000,等距生成1000个点y=2*x**2+30*x-11.5plt.plot(x,y)plt.title('$y=2x^2+30x-11.5$')

2021-12-09 23:16:29 1133

原创 python爬取网抑云评论

本文是一篇学习笔记,整体过程来自于b站https://www.bilibili.com/video/BV1Wf4y1t7PC?p=48&spm_id_from=pageDriver我们首先对网抑云的网页进行分析,很显然它的评论不位于网页的源代码内,这时候我们就要通过抓包去找到它评论的url我们看到传入的data被加密了,所以我们需要获得未加密的参数,这时候我们的思路就有了1.找到未加密的参数2.想办法把参数进行加密(必须参考网易的逻辑)3.请求到网易,拿到评论信息我们点击

2021-12-05 20:26:36 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除