RuDing-CSDN博客

原创 Python 数据处理

1.数据处理技巧# 1.造数据import pandas as pdimport numpy as npdata = pd.DataFrame({'user_id':[i for i in range(0, 10000)], '性别': np.random.randint(0, 2, size = 10000), ...

2020-04-14 14:04:43 470

1. SVM1.1 SVCsklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False,tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decisio

2017-11-20 16:11:52 4297

原创数据预处理

一、初始工具1.anaconda: IPython、spyder2.数据处理工具：pandas、numpy、Excel、sql3.建模工具：sklearn3.1 内容3.2 API数据预处理：Pandas:强大、灵活的数据分析和探索工具Numpy:数组支持，以及相应的高校处理函数Scipy:矩阵支持，以及对应的矩阵数值计算模块Matplotlib:强大的数据可视化工具，作图库……建模：S

2017-11-08 09:32:24 1474

转载 OneHot编码

1.官网示例# Author: Tim Head <betatim@gmail.com>## License: BSD 3 clauseimport numpy as npnp.random.seed(10)import matplotlib.pyplot as pltfrom sklearn.datasets import make_classificationfrom sklearn.l

2017-11-03 17:16:55 674

原创 Python 常用库及其作用

import numpy as npimport pandas as pdimport warnings#import itertoolsimport timeimport numpy as npimport pandas as pdfrom time import strftimeimport numpy.random as randomfrom numpy import hst

2017-10-25 14:37:06 2182

翻译 Gradient Boosting(GBM) 调参指南

译文：Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python简介这边文章帮助大家去看看GBM的是如何真正工作的。原文受启发于 NYC Data Science Academy 与bagging 在模型中只控制高方差不同的是，Boosting 算法善于处理偏差(bias)方差(variance)问题（trade-

2017-10-24 17:34:11 13721 2

翻译 XGBoost算法原理简介及调参

译文：Complete Guide to Parameter Tuning in XGBoost简介当模型没有达到预期效果的时候，XGBoost就是数据科学家的最终武器。XGboost是一个高度复杂的算法，有足够的能力去学习数据的各种各样的不规则特征。用XGBoost建模很简单，但是提升XGBoost的模型效果却需要很多的努力。因为这个算法使用了多维的参数。为了提升模型效果，调参就不可

2017-10-24 13:59:22 22590 5

转载如何选择机器学习算法

如何针对某个分类问题决定使用何种机器学习算法？当然，如果你真心在乎准确率，最好的途径就是测试一大堆各式各样的算法（同时确保在每个算法上也测试不同的参数），最后选择在交叉验证中表现最好的。倘若你只是想针对你的问题寻找一个“足够好”的算法，或者一个起步点，这里给出了一些我觉得这些年用着还不错的常规指南。How large is your training set?如果是小训练集，高偏差/低方差的分类器

2017-10-23 16:26:42 349

原创逻辑回归（logistics regression）算法及实例

逻辑回归简介逻辑回归（Logistic Regression）是机器学习中的一种二分类模型（主要为二分类应用，Softmax 回归是直接对逻辑回归在多分类的推广，即多元逻辑回归），由于算法的简单和高效，在实际中应用非常广泛。主要用途：寻找危险因素：什么样的用户通常会是“bad”用户？预测判别：用户是 “good”还是“bad”? 多大的概率是好用户，多大的概率是差用户？二分类问题及应用：获客评

2017-10-12 17:36:58 14307

原创机器学习-GridSearchCV自动调参，RF特征选择

主要思想：通过GridSearchCV算法进行特征的自动化筛选import numpy as npimport pandas as pdfrom time import strftimefrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfro

2017-10-12 16:08:12 4898

原创 Python-文件操作

读写文件编程时有时候需要将保存历史变量，可将变量写入文件，每次使用时读取即可 #变量读取程序 def text_read(self,filename): try: file = open(filename,'r') except IOError: error = [] return e

2017-10-12 16:01:20 385

翻译 python-元编程

定义：用元类进行编程，元类→类→对象，元类比类更抽象，生成类的类元类定义的都是类的方法，类定义的都是实例方法type元类typeType(name,bases,attrs): name:类名字符串 bases:父类元组 attrs:属性字典A = type('A',(object,),{'b':1})a = A()def howdy(self,you): pr

2017-10-07 21:34:42 2610

翻译 Python基本学习-多态和重载

多态多态指的是不同类的相同方法，相同参数，不同功能。调用时便于将一组对象放在集合里，无需判断对象的具体类型，统一调用里氏代换原则：父类能出现的地方，子类一定能出现，反之则不一定实例参加Python基本学习-组合（组合可以调用不同类的相同方法的不同实现形式）重载相同方法的不同参数类型。对应Python的args,kwargs

2017-10-06 22:45:53 878

翻译 python基本学习 - 继承和组合

继承简单的继承class Employee(object): def __init__(self,name,job,pay): self._name = name self._job = job self._pay = pay def giveRaise(self,percent): self._pay = int(

2017-10-06 21:43:34 708

翻译 python基本学习-类的方法

类方法 @classmethod :绑定类实例方法：绑定实例对象静态方法 @staticmethod ：无绑定特殊方法（魔法方法）， __init____init__class Date(object): def __init__(self,day,month,year): self.day = day self.month = month

2017-10-06 21:19:09 598

翻译 Python基本学习-类的属性

经典类和新式类基本语法class class_name(base_class): class_var def methods(self,args): statments经典类(无父类)与新式类(有父类)的区别新式类含slots：定义一个曹，slots = (‘x’,’y’),字典属性只能是xy，不能添加其他属性，经典类可以添加继承顺序，supernew,ge

2017-10-06 20:38:25 463

翻译 Python基本学习—函数

Filter，Map，ReduceFilter 对字符串给或者列表进行过滤，返回为TRUE的结果,第一个参数为返回true或者false的函数s = '1 46$ I a932874756like45651927_(&%$#$^&python'print(filter(str.isalpha,s)) ++++++ IlikepythonMap 每个元素都通过map处理一下 m

2017-10-05 20:58:47 503

翻译 SVM算法实例解析及应用

SVM简介Support Vector Machine (SVM) 是一个监督学习算法，既可以用于分类（主要）也可以用于回归问题。SVM算法中，我们将数据绘制在n维空间中（n代表数据的特征数），然后查找可以将数据分成两类的超平面。支持向量指的是观察的样本在n为空间中的坐标，SVM是将样本分成两类的最佳超平面。SVM的作用机制上面的简介告诉我们的是SVM是通过超平面将两类样本分开，本部分主要讲解如

2017-09-17 10:44:35 12061

原创数据降维方法汇总

数据降维的应用：①降低数据的存储量；②加快机器学习的速度；③数据可视化数据降维的本质：方差PCA（主成分分析）简介：principal component analysis,原理：对于一个未知的系统，我们假设它有n个参数。我们想要求出那些参数最重要，而把不重要的参数给抹掉，从而降低参数向量的维数。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。算法过程： 1）对于一个

2017-09-14 22:47:16 3509