python
文章平均质量分 70
安吉尼尔
永远有疑问的代码发烧友
展开
-
基于AHP模型指标权重分析python整理
基于AHP进行指标权重确认原创 2023-09-10 17:22:28 · 803 阅读 · 0 评论 -
笛卡尔积文本的python处理
一开始我想在Excel做简单的复制粘贴草草了事,但是实际的数据量要比例子里的还要多很多倍,而且很可能手工处理粘贴处理错误,所以考虑下还是做特殊的自动化处理比较妥当。当然如果数据量比较大,也可以考虑将步骤3的函数做代码处理,一步生成对应的Excel报表,由于数据量还算适中,因此没有做这么复杂。导出Excel的数据截图长这个样子,考虑怎么简单怎么来,标黄的部分为表头,没有定义标题,默认为0和1。其中文本里的变量有一个取值范围,这个范围只有用户提供的时刻才知道有多少范围,大致的变量是这样。原创 2023-08-06 17:27:05 · 320 阅读 · 0 评论 -
相关性的可视化展示python
一 操作说明使用Python可求取对应数据的相关性,两列数据之间的相关性系数的展示并不直观如果进行图形化的展示,可以帮助使用者更好理解当前的数据使用python的画图matplotlib的工具包和seaborn的工具使用sklearn的鸢尾花数据进行数据演示二 代码展示通常情况下展示的两列关系散点图(手工,不直观):# 引入工具包from sklearn.datasets import load_irisfrom sklearn.decomposition import PCAimpor原创 2021-10-06 18:00:04 · 4577 阅读 · 0 评论 -
离群点检测梳理
一 理解描述: 离群点检测,是发现于大部分其他对象显著不同的对象。大部分分析都会把这些差异信息丢弃,然而在一些场景中,这些数据可能存在巨大的价值应用范围: 诈骗检测;贷款审批;电子商务;网络入侵;天气预报等领域二 离群点成因及类型成因: 数据取值来源不同;自然变异造成;数据测量不准;收集误差离群点的类型:分类标准分类标准分类描述数据范围全局离群点和局部离群点离群特征是从局部和总体来看的,可用二维坐标分布图显示数据类型数值型类群点和分类型离群点根据数据集的属性原创 2021-01-23 23:18:17 · 1583 阅读 · 0 评论 -
Categorical类型
一 介绍在数据中,一个列有可能会包含很多重复值,这时会对重复值进行分类。往往在使用过程中会通过unique、value_counts等函数对重复值进行唯一性的提取和重复个数的统计。而还有一类数据类型可以帮助统计对应的值和表示的键。这类数据在系统可以称为维度表,维度表包含了不同值,并将主要观测存储为引用维度的整数键。可以通过如下例子进行展示,在例子代码中,这种按照整数展现的方式被称为分类或者字典编码展现。不同值的数组可以被称为数据的类别、字典或者层级。import numpy as npimport原创 2020-06-27 14:21:52 · 8219 阅读 · 0 评论 -
Python的文件读取与写入
访问数据往往是使用各种分析工具的第一步,数据文件与数据格式常常有很多种,通过python对数据文件的访问包括对文件的读取和写入,主要总结数据形式包括常用的txt,csv,json格式,Excel格式。Python的文件读取与写入1 读写txt文本1.1 读取txt文件1.2 写入txt2 读写csv文件2.1 读取csv文件2.2 写入csv3 读写json格式数据3.1 读取字符串3.2 转换为字符串4 读写Excel数据4.1 读取excel4.2 写入Excel1 读写txt文本1.1 读取t原创 2020-05-30 20:41:12 · 1081 阅读 · 0 评论 -
Python时间数据类型
目录1 datetime基本知识点1.1 存储精细度1.2 计算时间差1.3 加减求另一个时间2 日期与字符串的转换2.1 时间类型转为字符串2.2 字符串转为时间数据类型时间类型数据在生活中非常常见,经济、金融、物理等方面都会使用到,在观测数据过程中,对于时间序列数据常常使用的有三种:时间戳 :具体的时刻时间间隔 :由开始和结束的时间戳表示固定的时间区间 :比如说2020年一整年Pyt...原创 2020-03-31 20:57:06 · 8191 阅读 · 0 评论 -
Pandas整数索引
在pandas上使用整数索引容易产生歧义,因为它和在列表、元组内构建数据结构进行索引有一点不同。1.整数索引如下代码ser = pd.Series(np.arange(3.))ser[-1]返回的结果为:Traceback (most recent call last): File "G:\soft\anaconda\install\lib\site-packages\IPyth...原创 2020-01-31 19:02:14 · 1149 阅读 · 0 评论 -
梳理2 伪随机数
实际的代码中往往会使用到随机数,random函数往往具有生成随机数的功能,另外numpy.random模块在python内建的random模块基础上,可以高效生成不同概率分布下的完整样本值数组。所谓伪随机数,是由具有确定性行为的算法根据随机数生成器中的随机数种子生成的样本生成的几个常用的分布函数列表如下:1. 随机种子:seed函数1.1 随机数种子的理解理解:由上文对伪随机数的理解...原创 2019-11-03 18:02:17 · 862 阅读 · 0 评论 -
梳理1 Python内建数据结构
1.1元组【理解】:固定长度,不可变对象序列,逗号分隔,圆括号【元组生成】赋值方式:Tup = 2,3,4Tuple函数转化:tup = tuple([2,3,4,5])【元组的操作】元组内部可变对象的修改:+连接元组生成更长的元组元组的拆包(赋值变量进行拆包):普通拆包,嵌套拆包,*rest位置拆包【元组的方法】count方法: a.count(2)1.2列表**【理解】...原创 2019-10-27 15:24:55 · 140 阅读 · 0 评论 -
函数式编程中常用的函数(总结)
一 函数式编程理解** 1.函数式编程的含义:**函数式编程是一种编程的基本风格,就是构建程序的结构和元素的方式。函数式编程将计算过程看做是数学函数,也就是可以使用表达式编程。在函数的代码中,函数的返回值只以来传入函数的参数,因此使用相同的参数调用2次就会得到相同的结果。如果说这段话很难理解,我觉得可以这么想,函数式编程就是一种函数,或者是一种结构,在该结构中,将函数和函数的参数都作为参...原创 2019-07-30 17:23:08 · 2629 阅读 · 0 评论 -
一种使用Python计算可达矩阵的简单方法
在进行编码前要简单介绍几个知识点:有向图,邻接矩阵,可达矩阵有向图、邻接矩阵、可达矩阵有向图现实中常常会表示从一个地点到另一个地点的路径,这样的带有从起点到终点的路线表示可以用有向图表示。如下图所示:在该图中,可以看成由地点F1到F2,以及F1到F3,F3到F2的路径。这种有向图也表示两个因素的相互影响关系,再结合上面的有向图,我们可以理解为因素F1对因素F2有影响,对F3也有影响,因...原创 2019-03-31 18:08:42 · 12388 阅读 · 12 评论 -
python中的counter类
调用Counter 类使用的方法为:from collection import CounterCounter用于计数,调用它会返回一个key为列表的值,value为该值的具体个数的对象我们首先创建一个一维数组:x=np.random.random_integers(1,10,100)然后结果是如下所示: 接下来我们使用Counter()进行计数:coun...原创 2018-09-09 21:38:13 · 30582 阅读 · 2 评论 -
numerate()函数的学习
记录自己学习numerate的学习笔记在Python中,enumerate() 函数可以生成一个开便利的数据对象,这些数据对象可以是列表,元组或者字符串,对于生成的数据对象不仅有数据内容,还自动带有一个索引序列,我们可以看一些一个例子。 首先我们可以生成一个数组:data=np.arange(0,9)data在jupyter notebook中可以看到这时的结果应该是 ...原创 2018-09-06 17:13:39 · 2900 阅读 · 0 评论 -
安装anaconda的问题
我感觉每一个说好用的软件实际安装起来都没有那么顺心过,对于我来说,安装不下三次的软件都不是好软件。比如这个软件,痛苦的过程。于是种种在百度,尝试了各种方法后,最终,对我受益最大的是以下的网址,强烈安利: 点此进入链接 因为者篇文章所说的错误我都遇到了 不过最后所有似乎都完美解决的时候,我自己又遇到了新问题: 打开后一直处于初始化状态,然后闪退,这种操作着实不能忍,然后又是种种百度,各种问题...原创 2018-09-17 16:50:10 · 1252 阅读 · 0 评论 -
selenium打开谷歌浏览器
selenium是一个用于web应用程序测试的工具,它非常实用,selenium测试直接运行在浏览器中,可以模拟单击、输入、打开、验证等用户的操作我是在python环境中使用selenium的,在进行操作的时候主要有以下几步:1.安装selenium安装包如果不是Anaconda环境,可以使用Windows+r的方式打开命令行,输入cmd打开窗口然后输入代码:pip install s...原创 2018-10-04 17:42:01 · 1735 阅读 · 1 评论 -
爬取虎扑博客内容的Python代码
爬取虎扑博客内容的Python代码爬取目标使用的工具具体步骤1.导入库并连接数据库2.获取前10页的URL3.获取网页4.爬取内容并导入到MongoDB数据库总代码运行成功截图爬取目标主要爬取的为虎扑网站博客前十页的标题、作者、发布时间、浏览量、回复数等信息,结果如下图所示:使用的工具数据库: MongoDB数据库语言: python解析方式: BeautifulSoup具体步骤...原创 2018-10-15 17:58:32 · 669 阅读 · 0 评论 -
爬取网页中文乱码的问题
基本知识计算机只能处理数字,所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式。ASCII码 :英文字符和二进制数字之间的关系。一个符号为一个字节(byte),一个字节是8位(bit),所以总体共可以组合为2的8次方也就是256种状态。对于英文字符是足够表示了,然而对于汉字和其他国家256个符号时不够的。gb2312 : 中文字符和二进制数字之间的对应关系。...原创 2018-10-17 15:53:33 · 3110 阅读 · 0 评论 -
使用selenium爬取餐厅信息
使用selenium爬取餐厅信息一 工具及平台介绍二 代码主要部分解析1.使用的库:2.根据url获取到网页的函数3.解析获取网页的内容并存到csv文件中三 网页完整代码结果一 工具及平台介绍使用python语言爬取使用BeautifulSoup解析爬取餐厅信息——大众点评某个地区的餐厅列表导入到CSV文件夹下使用谷歌浏览器二 代码主要部分解析1.使用的库:from sele...原创 2018-10-21 10:39:22 · 448 阅读 · 0 评论 -
pandas读取csv文件
1.导入的包:import pandas as pdimport numpy as np2.读取文件我主要使用的是CSV文件格式,内容为如下:将数据加入到指定路径中,然后进行读文件:def read_csv(path): f = open(path, encoding='utf-8') read_data = pd.read_csv(f) # print(r...原创 2019-03-04 15:49:56 · 811 阅读 · 0 评论 -
python中assert的学习
在Python中,遇到了有关assert的使用,对于assert在敲代码的时候可以省略,但是当遇到错误时,它可以起到一种报错时显示错误的作用,真是万能的程序员。 我们可以写一个简单的函数来测试assert的语法可以如下写:def test(x,y): assert x==3, "x can not be less than 3"如果调用test函数如下会有什么结果呢?把x=3试...原创 2018-08-09 15:15:52 · 223 阅读 · 0 评论