数据分析
文章平均质量分 83
疋瓞
代码编辑器
展开
-
推荐算法——Apriori算法原理
首先名字别读错:an pu ruo ao rui 【拼音发音】Apriori是一种推荐算法推荐系统:从海量数据中,帮助用户进行信息的过滤和选择。主要推荐方法有:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于知识的推荐、混合推荐。关联分析:是一种在大规模数据集中寻找有趣关系的非监督学习算法,是利用一些有趣性的量度来识别数据库中发现的强规则。原创 2023-09-28 16:25:26 · 1525 阅读 · 0 评论 -
数据分析回头看2——重复值检查/元素替换/异常值筛选/元素查找
这部分内容是对Pandas的回顾,同时也是对Pandas处理异常数据的一些技巧的总结,不一定全面,只是自己在数据处理当中遇到的问题进行的总结。原创 2023-09-20 17:29:32 · 747 阅读 · 0 评论 -
数据分析15——office中的Excel基础技术汇总
这部分总结就是总结每个基础技术的定义,在了解基础技术名称和定义后,方便对相关技术进行检索学习。笔记不会详细到所有操作都说明,但会把基础操作的名称及作用说明,可自行检索。为什么要安装office的excel,而用wps不行?因为数据分析中excel是个重要的工具,wps中缺乏一些专业功能,或者说大多数人更喜欢白P,而WPS看似白P,实则付费,excel看似付费,但破解之后可以完美白P所有功能。保护设置:1、保护工作簿:将整个excel文件进行加密。原创 2023-08-18 14:04:59 · 1226 阅读 · 0 评论 -
数据分析回头看1——Pandas中数据处理总结
pandas中series数据:series数据是一维数组,它有对应的索引(index)和数据(data)两部分组成,在初始化的时候可以不传index,只传data进去,注意不论是index还是data都是通过列表传入的数据,index默认是从0开始,你也可以自己传了index列表,index列表中不一定是数字,也可以是字符串。一般使用pandas就直接使用DataFrame,因为一维数组也可以用其表示,且一维的DataFrame可以转化为。原创 2023-06-29 16:04:43 · 554 阅读 · 0 评论 -
数据分析14——Pandas中的时间序列
可以查看pandas文档。原创 2023-05-20 18:24:34 · 227 阅读 · 0 评论 -
数据分析13——Pandas数据导出/日期数据处理/样本采样
【代码】数据分析13——Pandas数据导出/日期数据处理/样本采样。原创 2023-05-20 17:52:02 · 903 阅读 · 1 评论 -
数据分析11——Pandas中数据偏移/数据切分/数据结构转换
函数名:cut参数说明:x:必须是一维输入数组,一般就是dataframe数据中某一列数据;bins:整型或者列表,是切分的规则;right:True表示切分区间是左开右闭,否则是左闭右开;其他参数:【labels,retbins,precision,include_lowest,duplicates,ordered】举例:按照数据中成绩进行数据切分,等距分为10组:tb[‘等距分箱’] = pd.cut(x=tb[‘成绩’], bins=10, right=False)原创 2023-05-20 10:51:02 · 1922 阅读 · 2 评论 -
数据分析12——Pandas中数据合并方法
在pandas中进行数据合并的操作和数据库中的join操作非常类似。原创 2023-05-20 16:46:44 · 3769 阅读 · 0 评论 -
数据分析10——Pandas中格式化/分组聚合
numpy是生成和处理array类型矩阵数据的工具,而pandas中的series(一维矩阵)和dataframe(二维矩阵)数据类型可以来自numpy生成的数据,pandas的重要之处在于他可以导入和处理多种格式类型的数据,其中还有很多方法可以使用。原创 2023-05-17 10:57:13 · 1414 阅读 · 0 评论 -
数据分析09——Pandas中的索引设置/排序/数据统计(异常值处理)
【代码】数据分析09——Pandas中的索引设置/排序/数据统计(异常值处理)原创 2023-05-16 18:49:26 · 876 阅读 · 0 评论 -
数据分析08——Pandas中对数据进行数据清洗
使用pandas修改数据是否会改变源数据?Pandas 对 DataFrame 的操作通常是针对原始数据本身而不是其副本的。例如,当我们使用 .loc 或 .iloc 方法选择 DataFrame 中的某行或某列并进行修改时,实际上是直接更改了原始数据,而不是创建了一个副本进行修改。为了避免修改源数据,我们可以采取以下两种方法:使用 copy() 方法,生成原 DataFrame 的副本,并对副本进行操作,这样就不会对原 DataFrame 产生影响。原创 2023-05-15 15:58:17 · 881 阅读 · 0 评论 -
数据分析07——Pandas中对数据进行增删改查的操作
在《数据分析06——Pandas中的数据抽取》中已经介绍了在Pandas中如何进行数据查找,而查找这个功能是增加修改和删除的前提。首先创建一个DataFrame数据,用于后面的举例。补充,在jupyter中要查看某个函数的参数详情,可以把光标放在函数上,然后按下shift+table。原创 2023-05-15 11:07:04 · 589 阅读 · 0 评论 -
数据分析06——Pandas中的数据抽取
在Pandas中进行数据抽取主要有两种方法,一种是loc方法,一种是iloc方法;在获取数据时可以获取的数据有三种形式,一种是Series类型,一种是DataFrame类型,还有一种是直接获取数据值;在进行切片获取数据时,要注意通过索引号来切片是左闭右开,通过索引名来切片就是左闭右闭;原创 2023-05-14 16:29:08 · 1217 阅读 · 0 评论 -
数据分析05——往Pandas中导入数据
1、导入Excel:注意这种方法可以导入xlsx和xls两种类型的数据读入的数据会以DataFrame的格式显示举例:df = pd.read_excel(‘./data/demo_03.xlsx’)还可以导入excel文件中具体的某一个表格:pd.read_excel(‘./data/demo_03.xlsx’, sheet_name=‘工作表1’)导入时要看字段名在excel表的哪一行(以第二行为例):pd.read_excel(‘./data/demo_03.xlsx’, sheet_na原创 2023-05-13 20:50:51 · 2264 阅读 · 1 评论 -
数据分析04——Pandas简介/Series对象/DataFrame对象
Pandas是基于NumPy开发的数据分析三大剑客之一,Python数据分析的核心库提供快速、灵活、明确的数据结构Series对象:一维数组结构,由index和value构成DataFrame对象:二维数组结构,由index、column和value构成能够简单、直观、快速地处理各种类型的数据在DataFrame中的很多属性和函数都是通过列来进行操作的,所以在DataFrame中列可以看作一个基本单位。原创 2023-05-11 17:04:41 · 1080 阅读 · 0 评论 -
数据分析03——矩阵常用计算方法和函数
数组:计算机领域的概念矩阵:数学领域的概念对于Numpy而言,矩阵是数组的分支。原创 2023-05-07 18:56:47 · 1980 阅读 · 0 评论 -
数据分析02——numpy模块的在jupyter中的使用
0、numpy:在计算机中会把数学当中的矩阵叫做数组,在很多应用中的表格也就是通过矩阵表示的,所以numpy广泛用于机器学习,数据分析,和图像处理领域。1、numpy常用方法和函数:前言:在使用numpy创建数组之前必须先导入模块:import numpy as np创建一维数组:arr1 = np.array([1, 2, 3])创建二维数组:arr4 = np.array([[1, 2], [3, 4]])查看数组维度:arr4.ndim查看元素数量:arr4.size查看元素形原创 2023-05-07 14:46:40 · 1660 阅读 · 0 评论 -
数据分析01——Anaconda安装/Anaconda中的pip换源/jupyter配置
查看所有魔法命令:%lsmagic测试一个单元格代码执行时间:%%time,注意%time是行魔法命令,就是测试一行代码用了多少时间。如果要查看一个魔法命令的作用,可以在写完魔法命令之后在后面加一个英文字符的问号,然后执行就能弹出该命令的官方文档。要查看一些python模块,也可以用在模块名后面加问号来查看。查看一个函数的作用,可以把光标点到函数括号中,然后按shift+tab键,就会弹出提示在jupyter中写好的python代码可以在jupyter的命令行模式下按下ctrl+L键来自动排版(前提是之前原创 2023-05-06 16:50:26 · 3058 阅读 · 0 评论