python数据分析与数据处理
文章平均质量分 72
记录一些常见的数据分析技术,以便后续复习
Top Secret
忙着毕业,暂不回复。
展开
-
数据处理——一维数组转列向量(分割时间序列为数据块时的问题)
记录在处理数据时被磕绊了一下的一个处理细节。原创 2024-03-03 21:56:29 · 414 阅读 · 0 评论 -
数据分析——数据预处理和数据管道构建
若想改变原来写“一体化”代码的习惯,养成将代码分块,其实就是python中模块化的思想。),导入数据,设置好一些超参数。(2)然后再根据数据预处理的基本步骤,将各个步骤写成函数,于数据集类中。(4)编写好模型训练代码(train.py)。主要在于导入包部分,其他的训练代码的写法其实和“一体化”代码一样。导入如上(1)(3)中的数据和模型,所以在train.py中。需要导入这两个模块。原创 2023-12-26 14:53:18 · 1361 阅读 · 0 评论 -
时间序列数据处理01——可视化与预处理
时间戳通常指的是一个特定时间点距离某个固定时间点(通常是1970年1月1日午夜,也称为UNIX纪元)经过的秒数。这是一个单一的时间点,表示为一个数字。时间戳是一种表示时间的标准方式,用于在计算机系统中存储和处理时间。时间戳序列是由一系列按照时间顺序排列的时间戳组成的数据集合。它表示在一段时间内观察到或记录到的多个时间点。时间戳序列通常用于描述时间序列数据,其中每个时间戳对应一个特定的观测值。时间戳序列可以是均匀间隔的,例如每小时采集一次,也可以是不均匀间隔的,取决于数据的性质。原创 2023-12-18 09:09:40 · 1021 阅读 · 0 评论 -
数据分析—将txt文件转为csv文件;将csv文件转为xls文件
【代码】数据分析—将txt文件转为csv文件。原创 2023-11-19 19:00:21 · 1728 阅读 · 0 评论 -
数据预处理—滑动窗口采样数据
【代码】数据预处理—滑动窗口采样数据。原创 2023-10-19 21:49:41 · 1200 阅读 · 0 评论 -
时间序列常用数据处理
这段Python代码定义了一个名为`Compose`的类。此类的主要目的是组合多个变换函数并按顺序应用它们。这在数据预处理中很常见,尤其是在图像和序列数据处理中。让我们逐行解释代码:定义了一个名为`Compose`的新类,该类继承自Python的基类`object`。这是类的初始化方法。当创建`Compose`对象时,它会被调用。- `transforms`是传递给此方法的参数,它预期是一个列表,其中包含要按顺序应用的一系列变换函数。原创 2023-10-06 21:59:13 · 521 阅读 · 0 评论 -
python数据处理方法——pkl格式文件
在 Python 编程中,我们通常需要将数据保存到文件中以便在以后的执行中使用。pkl 文件是一种常见的文件格式,它可以保存 Python 对象的状态,并且可以在需要时将其恢复到内存中pkl 文件是以二进制格式保存的。pkl 文件提供了一种简单而有效的方法来序列化和反序列化 Python 对象,使其易于存储、传输和共享。1.1 什么是 pkl 文件?pkl文件是指使用Python的pickle模块生成的二进制文件,用于将Python对象序列化到磁盘上。原创 2023-07-14 17:37:18 · 28983 阅读 · 4 评论 -
爬虫基础06—selenium
目录1.selenium概述2. python安装selenium3. 下载安装chromedriver:(谷歌驱动)4.利用驱动自动化操作浏览器:(4.1)driver.find_element_by_id('kw') #根据id找到元素(4.2)利用 driver.find_element_by_xpath() #根据xpath找到元素1.selenium概述2. python安装seleniumpipinsta......原创 2022-01-16 21:08:28 · 635 阅读 · 0 评论 -
python基础—socket与协程
目录1.socket通信: 1.1 osi模型: 2. 协程:2.1 利用yield实现协程:2.2 greenlet:可实现单线程内切换多个任务 2. 3 gevent: 可实现协程也是由C扩展而来的 a.阻塞式协程 b. 非阻塞, 上述例子中gevent识别io阻塞。如果想实现非阻塞模型需要导入, #167和#168两行代码 1.socket通信:...原创 2022-02-12 16:53:46 · 1413 阅读 · 0 评论 -
爬虫基础B1——Scrapy(B站学习笔记)
items.py文件中:原创 2022-06-23 13:32:19 · 214 阅读 · 0 评论 -
爬虫基础01—初识爬虫(request)
1. 网络爬虫简述能够爬数据,获取网页数据,数据采集一.爬虫分类:通用网络爬虫(url集合,url队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块) 聚焦网络爬虫(有目的的爬,例如爬取租房信息) 增量式网络爬虫(只更新改变的数据,不更新没改变的数据,可以减少下载量与网络资源开销,增加了爬虫算法的难度) 深层网络爬虫(爬行控制器,解析器,表单分析器,表单处理器,)响应分析器,lvs控制器(label value set是标签和数值的集合,用来表示填充表单的数据源)..原创 2022-01-15 12:23:32 · 1756 阅读 · 0 评论 -
爬虫基础02—Beautiful Soup
1. 什么是Beautiful Soup简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个原创 2022-01-15 22:05:39 · 930 阅读 · 0 评论 -
爬虫基础09B—scrapy爬虫
scrapy爬虫: 1)创建scrapy项目 terminal下输入:scrapy startproject tutorial 切换目录: cd tutorial 执行上述命令后,自动的创建了scrapy项目 生成了项目目录-tutorial scrapy.cfg 部署的配置文件 tutorial/ __init__.py 初......原创 2022-02-12 17:19:57 · 5413 阅读 · 0 评论 -
python模块02—datatime
datetime模块提供了五个常用类:date、time、datetime、timedelta、tzinfo。原创 2023-07-12 10:41:07 · 401 阅读 · 0 评论 -
python库01—进度条库tqdm
【代码】python库使用——进度条库tqdm。转载 2023-07-12 09:20:39 · 202 阅读 · 0 评论 -
pycharm打印不出动图怎么办?
原因:这样因为你的pycharm默认勾选了python scientific中的show plot in tool window。图显示在右上角,而且画出的只是一个白板,并不显示动图。然后把下面的√点掉,然后选择应用,ok。原创 2023-06-21 10:54:43 · 541 阅读 · 0 评论 -
python库01—scipy.linalg(线性代数)
基础算法:SciPy提供了用于优化,积分,插值,特征值问题,代数方程,微分方程,统计和许多其他类问题的算法。是一个开源的 Python 算法库和数学工具包。原创 2022-10-16 22:24:01 · 1305 阅读 · 0 评论 -
python数据分析02——numpy高级技术
导入数据的标准方法是使用np.genfromtxt函数,它可以从web URLs导入数据,处理缺失值,多种分隔符,处理不规则的列数等功能。一个不太通用的版本是用np.loadtxt函数导入数据,它假设数据集无缺失值.若设置参数dtype为'object'或'None',np.genfromtxt在未设置占位符的前提下能同时处理具有数字和文本列的数据集.......原创 2022-08-16 09:32:25 · 869 阅读 · 0 评论 -
python数据分析03—Matplotlib
Matplotlib是Python中的一个库,它是NumPy库的数值-数学扩展。Pyplot是一个基于状态的Matplotlib模块接口,该模块提供了一个类似matlab的接口。tz:时区字符串或datetime.tzinfo默认:rcParams[“timezone”](默认:‘UTC’)标签日期中使用的时区。如果xdate或ydate为 True,则将相应的值x或y解释为 Matplotlib日期。ydate :bool值,默认值:False。xdate:bool值,默认值:True。原创 2022-06-25 23:53:20 · 231 阅读 · 0 评论 -
python数据分析工具—Jupyter
开头的为单元命令,单元命令则必须出现在单元的第一行(而且不能有注释),对整个单元的代码进行处理。%%script :写bash、perl、javascript、js 等命令。: 加载指定路径下的python文件代码到当前单元格。%%writefile:将当前cell中内容写入文件中。: 测试单行代码单次执行的时间,并返回测试结果;开头的为行命令,行命令只对命令所在的行有效;: 显示当前命名空间中定义的详细变量信息;(4)%%latex:写Latex公式。: 列出当前命名空间中定义的变量。原创 2022-06-25 16:39:53 · 3937 阅读 · 0 评论 -
python数据分析04—Pandas基础
这个和导出到csv的唯一区别,就是分隔符了,txt文件是\t作为分隔符的,csv是用,作为分隔符。count 3.0 3.0 3.0 元素值得数量。50% 3.0 4.0 5.0 取值百分比。Series是一个值的序列,可以理解成一维数组,有一个列和一个索引,索引可以定制。std 3.0 3.0 3.0 标准差。ts[ts.index[0]] # ts.index[0] 表示的是索引值。原创 2022-06-25 10:44:25 · 738 阅读 · 0 评论 -
python数据分析01—Numpy入门
目录数据分析常用的库:1.Numpy:基础知识1.1 Numpy创建多维数组内置方法1.2 多维数组的索引1.2.1 列表中截取元素1.2.2数组索引1.2.3从二维到三位1.3 多维数组的基本运算 1.3.1 加减乘除都支持1.3.2 多维数组之间运算1.3.3 多维数组逻辑运算1.4 多维数组的统计方法数据分析常用的库: 三方库: Numpy- 科学计算,处理矩阵运算能力强 Pand...............原创 2022-02-13 17:00:57 · 817 阅读 · 0 评论