python
文章平均质量分 90
python语言、sublime text
鮀城小帅
在工作中一步步学习、进步,充实工作也充实生活。
展开
-
python入门(1)简介与开发环境搭建
Python是解释型语言Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种广泛使用的高级编程语言,属于通用型编程语言,由吉多·范罗苏姆创造,第一版发布于1991年。可以视之为一种改良(加入一些其他编程语言的优点,如面向对象)的LISP。作为一种解释型语言,Python的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进划分代码块,而非使用大括号或者关键词)。相比于C++或Java,Python让开发者能够用更少的代码表达想法。原创 2023-05-18 10:00:00 · 348 阅读 · 0 评论 -
python入门(2)基本概念和语法、变量、标识符、数据类型、表达式
Python提供了许多内置对象,如整数、字符串、列表、字典等,可以直接使用。同时,你也可以创建自定义对象,根据自己的需求定义属性和方法,以及实现特定的行为。Python中的对象机制使得代码具有灵活性和可扩展性。你可以创建自定义的对象,定义自己的属性和方法,以及实现自己的逻辑。通过使用对象,可以更好地组织和管理代码,并实现面向对象编程的思想。原创 2023-05-19 10:00:00 · 799 阅读 · 1 评论 -
Python3数据分析与挖掘建模(16)特征降维与特征衍生
LDA(Linear Discriminant Analysis)降维是一种经典的线性降维方法,其核心思想是通过投影变换将数据映射到一个低维空间,使得同一类别内的样本尽可能接近,不同类别之间的样本尽可能远离。具体的步骤如下:(1) 计算类内散度矩阵(Within-class scatter matrix):对于每个类别,计算该类别内样本的协方差矩阵,然后将所有类别的协方差矩阵求和,得到类内散度矩阵。原创 2023-06-15 10:00:00 · 2037 阅读 · 0 评论 -
Python3数据分析与挖掘建模(15)特征选择与特征变换
指数化就是将一个数变换为指数的过程,指数一般情况下取自然底数。如图,横轴标识自变量有很小的一段变化,纵轴有较大的一段变化。原来的Y轴分别是 0.3、0.3、0.4,指数化后成了 1.35、1.35、1.49,再进行归化后,分别是 0.32、0.32、0.36。相互间的最大差距从原来的0.4-0.3=0.1变成了0.36-0.32=0.04。这个从获取指数到归化的整个过程,是一个Softmax函数。对数化(对数变换)是特征变换的一种常见方法,通过应用对数函数来转换特征的取值。原创 2023-06-14 10:00:00 · 1398 阅读 · 0 评论 -
Python3数据分析与挖掘建模(14)特征工程、数据清洗、特征预处理
数据清洗是特征工程中的一个重要步骤,涉及到数据样本抽样和异常值处理。下面对这两个方面进行详细说明:(1)数据样本抽样:- 数据样本抽样是从整体数据集中选择一个代表性子集的过程。常见的数据样本抽样方法包括随机抽样、分层抽样和集群抽样等。- 抽样的目的是减少数据量,加快模型训练和评估的速度,同时保持样本的代表性,以避免样本偏差对模型性能的影响。- 在数据样本抽样过程中,需要考虑抽样方法的合理性和适用性,确保抽样后的样本能够准确地代表整体数据集。原创 2023-06-13 10:00:00 · 2630 阅读 · 1 评论 -
Python3数据分析与挖掘建模(13)复合分析-因子关分析与小结
探索性因子分析(Exploratory Factor Analysis,EFA)是一种统计方法,用于分析观测变量之间的潜在结构和关联性。它旨在确定多个观测变量是否可以归结为较少数量的潜在因子,从而帮助简化数据集和提取隐藏的信息。在探索性因子分析中,我们收集一组观测变量的数据,并试图找到解释这些变量之间关系的较少数量的潜在因子。这些潜在因子是无法直接观测到的,但它们可以通过变量之间的共同方差来解释观测数据的模式。探索性因子分析可以用于数据降维、构建测量工具、发现潜在因素和进行模型建立等领域。原创 2023-06-12 10:00:00 · 1263 阅读 · 0 评论 -
Python3数据分析与挖掘建模(12)多因子:复合分析-相关分析与实现示例
相关分析中的熵、条件熵和互信息是信息论中的概念,用于衡量随机变量之间的关联性。(1)熵(Entropy):熵是表示随机变量的不确定性的度量。对于一个离散随机变量,其熵的定义为所有可能取值的信息量的期望值的负数。熵越大,随机变量的不确定性越高。在相关分析中,熵可以用于衡量单个随机变量的不确定性。公式:值越接近于0,说明其不确定性越小。(2)条件熵(Conditional Entropy):条件熵是在给定另一个随机变量的条件下,某个随机变量的不确定性。原创 2023-06-11 10:00:00 · 1076 阅读 · 0 评论 -
Python3数据分析与挖掘建模(11)多因子:复合分析-分组分析与实现示例
Gini系数是一种衡量不纯度的指标,常用于衡量分类问题中的类别不平衡程度。在机器学习和决策树算法中经常使用Gini系数来评估节点的纯度。Gini系数的计算方法如下:1. 首先,计算每个类别在数据集中的频率或比例。2. 计算Gini系数的公式为:Gini = 1 - ∑(p^2) ,其中∑表示对所有类别求和,p表示每个类别的频率或比例。3. Gini系数的取值范围为0到1,0表示数据集的纯度最高,即所有样本都属于同一类别;1表示数据集的纯度最低,即各类别的样本均匀分布。原创 2023-06-10 10:00:00 · 720 阅读 · 0 评论 -
Python3数据分析与挖掘建模(10)多因子:复合分析-交叉分析与实现示例
复合分析(Factorial Analysis)是一种统计分析方法,用于研究多个因素对观测结果的影响,并探究各个因素之间的相互作用效应。在复合分析中,研究者会选择多个因素(也称为处理变量或独立变量),并对这些因素的不同水平进行组合。每个因素的水平表示该因素所具有的不同取值或条件。通过对不同因素水平的组合进行实验或观测,研究者可以探索这些因素对结果变量(也称为因变量)的影响。复合分析可以帮助研究者了解以下方面:主效应(Main Effects):即每个因素对结果变量的独立影响。原创 2023-06-09 10:00:00 · 2189 阅读 · 0 评论 -
Python3数据分析与挖掘建模(9)多因子分析:相关系数与线性回归
回归:确定两种或两种以上变量间互相依赖的定量关系的一种统计分析方法。线性回归是一种统计模型,用于建立自变量(预测变量)与因变量(目标变量)之间的线性关系。它假设自变量和因变量之间存在一个线性关系,并尝试通过拟合一条直线来预测因变量的值。主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,用于将高维数据转换为低维数据,并发现数据中的主要变化方向。QQ图(Quantile-Quantile plot)是一种用于检验数据是否符合某种理论分布的方法。原创 2023-06-01 10:00:00 · 2927 阅读 · 0 评论 -
Python3数据分析与挖掘建模(8)多因子分析:检验
卡方检验(Chi-Square Test)是一种用于比较观察值与期望值之间差异的统计检验方法。它适用于分析分类数据的关联性和独立性。卡方检验的基本思想是比较实际观察值与在假设为真时的期望值之间的差异程度。它通过计算卡方统计量来衡量观察值与期望值之间的差异程度。卡方统计量的计算是基于各个观察值与期望值之间的差异,差异越大,卡方统计量越大,表示观察值与期望值之间的偏离程度越大。原创 2023-05-31 16:00:00 · 1506 阅读 · 0 评论 -
Python3数据分析与挖掘建模(7)使用matplotlib和seaborn画图
可视化分析是数据分析中重要的一环,它可以帮助我们更直观地理解数据的特征、趋势和关系。在Python中,有多个库可以用于数据可视化,包括matplotlib、seaborn和plotly等。原创 2023-05-31 10:00:00 · 2255 阅读 · 0 评论 -
Python3数据分析与挖掘建模(6)单因子分析:离散分布分析示例
例如,通过计算平均值、标准差、偏度和峰度等指标,你可以了解该列数据的集中趋势、离中趋势、偏态和峰态情况。在这个例子中,结果显示了从0.0到1.0的10个分组,并给出了每个分组的频数。例如,频数为195的分组包含了满意度在0.0到0.1之间的数据。上述数据中,根据 satisfaction_level 的平均值可以看出对HR的满意度是比较低的。输出结果中的第一个数组表示每个分组中数据的频数,第二个数组表示分组的边界值。这样的直方图可以帮助我们了解满意度数据的分布情况,以及各个区间内的数据数量。原创 2023-05-30 18:00:00 · 1212 阅读 · 0 评论 -
Python3数据分析与挖掘建模(5)单因子:数据分类与分析
异常值分析是数据分析的重要步骤之一,它旨在识别和处理数据中的异常值或离群值。异常值是指与其他观测值明显不同的数据点,它可能是由于测量误差、数据录入错误、实验异常或真实的极端情况所导致。对比分析是一种常用的数据分析方法,用于比较不同时间点、不同对象或不同组别之间的数据差异和相似性。在对比分析中,常用的指标包括绝对数和相对数。结构分析是一种用于理解和描述数据的组成和关系的方法。它可以从静态和动态的角度进行分析,同时可以关注整体和部分的结构。原创 2023-05-30 10:00:00 · 1020 阅读 · 0 评论 -
Python3数据分析与挖掘建模(4)单因子分析:集中趋势与离中趋势、数据分布与抽样
集中趋势是描述数据分布中心位置的统计概念,用于了解数据的典型取值或平均水平。主要包括均值、中位数和众数。离中趋势是描述数据分布中数据离开中心位置的程度或变异程度的统计概念。主要包括标准差和方差。数据分布是指数据在数值上的分布情况,描述了数据在不同取值上的频率或概率分布。数据分布的概述包括了偏态与峰态的概念以及常见的分布类型如正态分布和三大分布。抽样理论是统计学中的重要概念,用于研究如何从总体中获取样本,并通过样本推断总体的特征。原创 2023-05-29 16:00:00 · 1566 阅读 · 0 评论 -
Python3数据分析与挖掘建模(3)探索性数据分析
探索性数据分析(Exploratory Data Analysis,EDA)是一种数据分析的方法,用于探索和理解数据集的特征、关系和分布等。EDA旨在揭示数据中的模式、异常值、缺失值等信息,并为后续的分析和建模提供基础。以下是关于探索性数据分析的一些重要概念和方法:(1)数据摘要:通过计算描述性统计量,如均值、中位数、标准差、最小值、最大值等,对数据集的特征进行摘要和总结。这些统计量可以帮助了解数据的中心趋势、离散程度和分布情况。(2)数据可视化:利用图表、图形和可视化技术,将数据以直观的方式展示出来。原创 2023-05-29 10:00:00 · 1480 阅读 · 0 评论 -
Python3数据分析与挖掘建模(1)python数据分析的流程与概述
数据分析是指通过对收集到的数据进行处理、解释和推断,从中获取有价值的信息、洞察和结论的过程。它旨在发现数据中隐藏的模式、趋势和关联性,并提供基于数据的决策支持。数据分析的概述可以包括以下几个方面:目标定义:明确数据分析的目标和问题,确定需要回答的具体业务问题或假设。数据收集:从各种来源获取数据,包括数据库、文件、传感器、社交媒体等。数据清洗和预处理:对数据进行清洗、去除噪声、处理缺失值和异常值,以确保数据的质量和一致性。原创 2023-05-28 14:00:00 · 1449 阅读 · 0 评论 -
Python3数据分析与挖掘建模(2)数据获取手段
通过埋点,可以追踪用户在页面上的点击、滚动、提交等操作,也可以记录特定事件的发生,如购买、播放视频、下载等。此外,也要考虑数据的清洗和处理,以确保获取的数据质量和准确性。:是阿里巴巴集团推出的数据竞赛平台,与Kaggle类似,提供丰富的数据集和比赛,涵盖各个领域的数据挖掘和机器学习任务。:是一个著名的数据科学竞赛平台,提供各种实际问题的数据集和比赛,供数据科学家和机器学习爱好者进行建模和解决问题。:是一个广泛使用的计算机视觉数据集,包含大量的图像数据和对应的标签,用于图像分类和目标识别等任务。原创 2023-05-28 19:23:26 · 597 阅读 · 0 评论 -
python入门(13)异常与文件
在Python中,我们可以自定义异常类来满足特定的异常情况。自定义异常可以继承自内置的异常类或其他已定义的异常类,以便更好地区分和处理特定类型的错误。if b == 0:try:main()在上述示例中,我们定义了一个名为的自定义异常类。它继承自内置的Exception类,并添加了__init__和__str__方法用于初始化异常对象和返回异常信息。在函数中,我们进行了除法运算,如果除数为零,则抛出异常,并传入错误信息。在main()函数中,我们捕获并处理异常,并打印异常信息。原创 2023-05-28 10:00:00 · 1606 阅读 · 0 评论 -
python入门(12)面向对象:标准库与面向对象小结
Python 的标准库是 Python 安装包中默认包含的一组模块和功能集合。这些模块提供了广泛的功能,包括文件处理、网络通信、数据解析、日期时间操作、数学计算、数据库访问、图形界面等等。原创 2023-05-27 15:00:00 · 1422 阅读 · 0 评论 -
python入门(11)面向对象 :模块与包
在 Python 中,模块是一个包含了函数、类和变量的文件。模块提供了一种组织代码的方式,使得代码更加可重用和可维护。你可以使用 Python 内置的模块,也可以创建自己的模块。Python 模块的特点包括:封装代码:模块允许你将相关的代码放在一起,并封装成一个独立的单元,使得代码更具可读性和可维护性。重用性:模块可以在多个程序中重复使用,避免了重复编写相同的代码,提高了开发效率。命名空间:模块提供了一个独立的命名空间,防止命名冲突,你可以在模块内定义变量、函数和类,它们的名称在模块内是唯一的。原创 2023-05-27 10:00:00 · 1399 阅读 · 0 评论 -
python入门(10)面向对象 :类的特殊方法
如果你的类需要具有特定的行为、字符串表示形式或进行比较操作,那么重写这些方法是有意义的。例如,如果你定义了一个自定义的类,需要将其用于打印、判断真假或进行比较,那么重写相应的特殊方法是很有用的。需要注意的是,析构方法的调用是由垃圾回收器决定的,具体的调用时机和顺序可能会有一定的延迟,因此不能依赖析构方法来进行严格的资源管理。方法:用于返回对象的字符串表示形式,通常用于调试和开发过程中,提供详细的信息以便重新创建对象。方法:用于返回对象的字符串表示形式,通常用于打印对象或显示可读性强的信息。原创 2023-05-26 18:00:00 · 1162 阅读 · 0 评论 -
python入门(9)面向对象 :封装、继承、多态与垃圾回收
Python 中的垃圾回收是通过引用计数和垃圾回收器来自动管理对象的内存。引用计数用于跟踪对象的引用情况,当引用计数为0时,对象将被回收。垃圾回收器处理循环引用和其他特殊情况,确保不会有任何对象被遗漏。开发者无需手动管理内存,可以专注于编写代码逻辑。原创 2023-05-26 10:00:00 · 1165 阅读 · 0 评论 -
python入门(8)面向对象 :类、对象、属性与方法
当我们谈论Python的面向对象思想时,主要指的是Python中的类和对象的概念以及与之相关的特性和原则。面向对象编程(Object-Oriented Programming,简称OOP)是一种常用的编程范式,它将程序中的数据和操作数据的方法组织在一起,形成对象,通过对象之间的交互来实现程序的功能。在Python中,面向对象编程主要围绕以下几个核心概念展开:(1):类是面向对象编程的基础,它是一种自定义的数据类型,用于描述对象的属性和行为。原创 2023-05-25 10:00:00 · 4824 阅读 · 1 评论 -
python入门(7)函数系列 2
在Python中,命名空间(Namespace)是一个用于存储和查找变量名的容器。它提供了变量名与变量对象之间的映射关系。在Python中,参数解包(Unpacking)是指将可迭代对象(如列表、元组、集合等)中的元素解包并分配给函数或变量。参数解包可以用于函数调用时传递参数,或者在赋值语句中将可迭代对象的元素赋值给多个变量。参数解包的语法是使用操作符,它可以应用在函数调用时和赋值语句中,具体取决于使用的上下文。装饰器(Decorator)是Python中一种用于修改函数或类的行为的特殊函数。原创 2023-05-24 10:00:00 · 431 阅读 · 0 评论 -
python入门(6)函数系列 1
(1)abs(x)定义:返回一个数的绝对值。abs(x)示例代码:print(result) # 输出:10(2)chr(i)定义:返回指定 Unicode 码对应的字符。chr(i)示例代码:print(character) # 输出:'A'(3)len(s)定义:返回对象的长度或元素个数。len(s)示例代码:")print(length) # 输出:13定义:返回一个指定范围的整数序列。print(num)1234定义:判断可迭代对象中的所有元素是否都为 True。原创 2023-05-23 10:00:00 · 1026 阅读 · 0 评论 -
python入门(5)序列、字典、集合
定义:由字符组成的不可变序列。用途:用于存储和操作文本数据。定义:由任意类型的元素组成的可变序列,用方括号[ ]表示。用途:用于存储和操作多个元素的集合。定义:由任意类型的元素组成的不可变序列,用圆括号( )表示。用途:用于存储和保护一组数据,通常在函数返回多个值时使用。定义:由指定范围内的整数组成的不可变序列。用途:用于生成一系列连续的整数,通常在循环中使用。定义:由字节组成的可变序列。用途:用于在二进制数据上执行可变操作。原创 2023-05-22 10:00:00 · 1136 阅读 · 0 评论 -
python入门(4)流程控制语句
条件控制语句用于根据条件来决定程序的执行路径。在Python中,常见的条件控制语句有以下几种:(1)if语句:用于执行满足条件的代码块。(2)if-else语句:在满足条件时执行一个代码块,否则执行另一个代码块。(3)if-elif-else语句:在满足多个条件时执行不同的代码块。以上是常见的条件控制语句,它们根据条件的真假来决定执行哪个代码块。你可以根据实际需求选择合适的条件控制语句,它们可以帮助你根据不同的条件执行不同的操作。原创 2023-05-21 10:00:00 · 714 阅读 · 0 评论 -
python入门(3)类型转换与运算符
int(x),其中x可以是数字、字符串或浮点数。float(x),其中x可以是数字、字符串或整数。str(x),其中x可以是任意类型的对象。bool(x),其中x可以是任意类型的对象。list(x),其中x可以是可迭代对象,如字符串、元组、集合等。tuple(x),其中x可以是可迭代对象,如列表、字符串、集合等。set(x),其中x可以是可迭代对象,如列表、字符串、元组等。(8)字典类型(dict):dict(x),其中x可以是包含键值对的可迭代对象,如列表、元组、集合等。,其中x。原创 2023-05-20 10:00:00 · 834 阅读 · 1 评论 -
Sublime Text 文本编辑器使用
Sublime Text是一个灵活且可扩展的文本编辑器,它支持许多插件来增强功能和提高开发效率。:一个用于管理和安装其他插件的插件。它简化了插件的安装和更新过程。Anaconda:提供Python开发环境的功能,包括代码补全、语法检查、代码导航等。:在Sublime Text中运行交互式解释器,可以方便地执行Python代码。:用于检查代码中的语法错误和风格问题,并提供实时反馈。GitGutter:通过在编辑器的侧边栏显示Git提交历史和更改的行号,帮助你追踪代码的修改和版本控制。Emmet。原创 2023-05-17 10:00:00 · 4046 阅读 · 0 评论