自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 重复值处理 - 清洗 DataFrame 中的各种重复类型 - Python代码

目录所有列是否完全重复指定某一列是否重复根据多列判断是否重复,防止误删数据其他数据预处理方法通过八爪鱼或者火车头等采集器从全网抓取的数据中,总会存在各种各样的重复数据,为保证数据在使用过程中的准确性,总要先进行一番清洗。所有列是否完全重复在Pandas中,.duplicated()表示找出重复的行,默认是判断全部列,返回布尔类型的结果。对于完全没有重复的行,返回 Fal...

2018-08-30 17:24:11 10271 1

原创 决策树模型 - (ID3算法、C4.5算法) - Python代码实现

目录算法简介信息熵(Entropy)信息增益(Information gain) - ID3算法信息增益率(gain ratio) - C4.5算法源数据代码实现 - ID3算法代码实现 - C4.5算法画决策树代码-treePlotter算法简介决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。其中ID3算法是以...

2018-08-22 14:33:17 15724 36

原创 字符串处理 - DataFrame文本数据的量化 - Python代码

在数据建模的过程中,对于文本数据,比如婚姻情况、性别、居住地等。这给只接受数值型的模型造成了很大的干扰,因此在数据采集到数据建模的过程中,我们需要一个过程,叫量化。比如这样一个源数据:收入 身高 长相 体型 是否见面 一般 高 丑 胖 否 高 一般 帅 瘦 是 高 一般 帅 瘦 是...

2018-08-21 17:58:14 7128

原创 获取数据 - 将Excel文件读入矩阵matrix中 - Python代码

机器学习中,很多算法的计算逻辑是基于数学的,免不了求特征值和特征向量这种事情,因此,在数据预处理的时候,将数据源中的数据转储成矩阵格式是很有必要的。原数据:代码:import numpy as npimport pandas as pdimport xlrdfrom sklearn import preprocessingdef excel_to_matrix(pat...

2018-08-21 16:52:16 20387 10

原创 合并数据 - 方法总结(concat、append、merge、join、combine_first)- Python代码

描述分析一个业务的时候往往涉及到很多数据,比如企业融资信息、投资机构信息、行业标签、招聘数据、政策数据等,这些数据分别存储在不同的表中。通过堆叠合并和主键合并等多种合并方式,可以将这些表中需要的数据信息合并在一张表中供分析使用。合并方法堆叠合并:横向堆叠,纵向堆叠; 主键合并; 重叠合并;堆叠合并堆叠合并就是简单的把两个表拼在一起,分为横向堆叠和纵向堆叠。横向堆叠横向...

2018-08-20 14:38:55 19001

原创 数据离散化 - 等宽&等频&聚类离散 - Python代码

目录等宽离散等频离散聚类离散附录:rolling_mean函数解释cut函数解释其他数据预处理方法一些数据挖掘算法中,特别是某些分类算法(eg:ID3算法、Aprioroi算法等),要求数据是分类属性形式。因此常常需要将连续属性变换成分类属性,即离散化。离散化就是在数据的取值范围内设定若干个离散的花粉店,将取值范围划分为一些离散化的区间,最后用不同的符号护着整数...

2018-08-17 17:55:39 35383 15

原创 轻松看懂机器学习十大常用算法 - 基础知识

通过本篇文章可以对机器学习ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。算法如下:决策树 随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboost 算法 神经网络 马尔可夫1. 决策树根据一些 feature 进行分类。每个节点就对某一个 fe...

2018-08-17 15:37:09 3632

原创 逻辑回归 - sklearn (LR、LRCV、MLP、RLR)- Python代码实现

目录LR(LogisticRegression) - 线性回归LRCV(LogisticRegressionCV )- 逻辑回归MLP(MLPRegressor) - 人工神经网络RLR(RandomizedLogisticRegression)-随机逻辑回归logistic回归--因变量一般有1和0两种取值,将因变量的取值范围控制再0-1范围内,表示取值为1的概率。数据源...

2018-08-17 15:10:21 19425 1

原创 Python - Excel文件与CSV文件相互转化

 Excel文件转化成CSV - pandas#excel文件转化成csvimport pandas as pdfile='E:\\pythondata\\union\\test_3.xlsx'outfile='E:\\pythondata\\union\\test_3.csv'def xlsx_to_csv_pd():    data_xls = pd.read_excel(...

2018-08-16 15:34:01 12409 3

原创 合并数据 - 合并多个Excel文件并转成CSV - Python代码

在工作中,有时候因为部门间的数据权限问题,推送数据的时候往往是通过邮件完成,对于量大的数据,往往会拆成很多个excel发送,到下一个部门导入数据库之前,总是需要先将所有excel合成一个excel,再导入数据库。手动操作往往受限于各种因素,嫌麻烦?打开excel太慢浪费时间?需要上班之前导好表又不想每天都提前来上班?总之下面这个代码可以解救你:# -*- coding: utf-8 -*-...

2018-08-15 15:56:20 7015 1

原创 Python数据清洗 - 洗什么?怎么洗?看完就明白了

目录缺失值处理删除缺失值插补缺失值不处理缺失值重复值处理异常值处理遍历查找异常值,并根据规则调整大小删除异常值视为缺失值后进行插补数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数据不完整、数据矛盾、异常值等。这些因素不仅影响建模的执行过程,更有甚者在不知不觉间给出错误的建模结果,这就使得数据清洗显得尤为重要。但是数据清洗并不是数...

2018-08-14 15:29:40 37179 12

原创 数据归一化 - MinMaxScaler()/MaxAbsScaler() - Python代码

目录归一化数据归一化的背景介绍MinMaxScaler:归一到 [ 0,1 ] MaxAbsScaler:归一到 [ -1,1 ] 标准化去均值,方差规模化归一化数据归一化的背景介绍在之前做聚类分析的时候我们发现,聚类的效果往往特别受其中一列数据的影响,使得原本应该散布在二维平面图上的点,变成聚集在一条线上的点,可想而知,其聚类效果肯定不理想。左图:为所有数...

2018-08-10 14:49:23 104550 20

线性回归(数据与python代码).zip

线性回归 - 机器学习多元线性回归一步一步详解 - 含数据与Python代码实现

2019-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除