![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析与挖掘建模实战
文章平均质量分 77
夜景黑色调
这个作者很懒,什么都没留下…
展开
-
正则表达式re模块
请从以下文件里取出所有的手机号:姓名 地区 身高 体重 电话况咏蜜 北京 171 48 13651054608王心颜 上海 169 46 13813234424马纤羽 深圳 173 50 13744234523乔亦菲 广州 172 52 15823423525罗梦竹 北京 175 49 18623423421刘诺涵 北京原创 2021-09-15 23:08:17 · 121 阅读 · 0 评论 -
利用python进行数据分析第二版学习笔记
行话:数据规整(Munge/Munging/Wrangling) 指的是将非结构化和(或)散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge这个词跟Lunge押韵。伪码(Pseudocode) 算法或过程的“代码式”描述,而这些代码本身并不是实际有效的源代码。语法糖(Syntactic sugar) 这是一种编程语法,它并不会带来新的特性,但却能使代码更易读、更易写。Python的对象通常都有属性(其它存储在对象内部的Python对象)和方法(对象的附属原创 2021-09-13 20:08:00 · 402 阅读 · 0 评论 -
日常python常见问题
1.numpy中axis参数理解简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across)。原创 2021-03-11 11:17:44 · 166 阅读 · 0 评论 -
数据分析与挖掘建模实战总结
1.理论铺垫:集中趋势:均值、中位数、分位数、众数离中趋势:标准差、方差数据分布:偏态与峰态、正态分布与三大分布抽样理论:抽样误差、抽样精度四分位数计算方法:Q1:的位置=(n+1)*0.25Q2:的位置=(n+1)*0.5Q3:的位置=(n+1)*0.75import pandas as pddf=pd.read_csv("HR.csv")df.head(10)type(df) # 数据结构为DataFrametype(df["satisfaction_level"]) #原创 2021-03-07 22:13:26 · 1700 阅读 · 0 评论 -
第二章--数据获取
原创 2020-12-01 13:20:37 · 77 阅读 · 0 评论 -
第七章 线性回归预测模型
线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(自变量)来预测某个连续的数值变量(因变量)。一元线性回归模型:y=a+bx+εimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsf = open(r'C:\Users\active\Music\Desktop\Pyt...原创 2019-02-18 11:30:00 · 424 阅读 · 0 评论 -
第五章--预处理理论
特征工程,,异常值(空值)处理空值、重复值、四分位数上下1.5倍到3倍边界范围以外、业务实际情况下不允许出现的值集中值:均值,中位数,众数等,,,特征选择:,,特征变换:对指化:将数据进行对数化和指数化的过程指数化:将一个数进行指数变换的过程,指数的底数一般取自然底数e,对数化:取自然底数e,离散化:将连续...原创 2020-02-22 13:55:00 · 164 阅读 · 0 评论 -
回归
线性回归:把自变量叫特征,把因变量叫标注,只是这个标注是连续值,而不是离散值,如果多个变量间的关系用线性关系去考量,那就是线性回归;若果多个变量间用多项式关系去考量,那就是多项式回归。类似的,可以由多种回归方法,同一系列的样本,可以用线性回归去拟合;同样,也可以用二次函数去拟合那么,如何判断哪个拟合关系更好?回归要考虑模型的复杂度和准确度两方面,当然,最重要的,是它对未...原创 2020-02-28 20:41:00 · 58 阅读 · 0 评论 -
第七章-模型评估
,分类模型评估:二分类:标注分类只有两类的分类,一个类叫做二分类的正类,用1表示;另个一类叫做二分类的负类,用0表示。一般来说,正类是我们比较关注的类,比如:“员工是否离职”,离职的叫做正类,不离职的叫做负类。注:有的时候0和1不是直接得到的,而是我们得到了一个数据在经过模型输出后,划分为正类的概率,如果概率接近0,那么它应该被划分为负类。如果得到的是概率值,我们有时候需...原创 2020-03-05 09:08:00 · 87 阅读 · 0 评论 -
无监督学习
分类和回归都属于监督学习,特点就是他们都有一个标注,而标注的存在就是给分类任务或者回归任务一个指引,告诉算法,具备什么样特征的数据是什么样的标注,也就是它叫什么名字,哪些数据是一样的,哪些数据是不一样的,都是通过标注来区分的。无监督学习:没有标注,目的就是试图给这些数据加上标注,而打标注并不是随便打的,有一个原则和假设就是我们希望给没有标注的数据加上标注以后,同一个标注内的数据尽可能的...原创 2020-03-01 21:36:00 · 114 阅读 · 0 评论 -
第六章---机器学习与数据建模
点学习:通过接收到的数据,归纳提取相同与不同机器学习:让计算机以数据为基础,进行归纳与总结模型:数据解释现象的系统机器学习:1.监督学习(机器学习的过程有标注:相当于告诉模型,在什么样的数据特征下应该输出什么样的结果,机器学习的任务就是提炼出输入与标注间的关系,并进行预测)根据标注是离散值还是连续值,监督学习可分为分类问题和回归问题1)分类(标注是离散值)2)回归(标注是...原创 2020-02-24 08:42:00 · 438 阅读 · 0 评论