2018年07月_蜘蛛侠不会飞

转载机器学习各类算法的优缺点

1.逻辑回归二项logistic回归模型是一种分类模型，由条件概率分布P(Y|X)表示，形式为参数化的logistic分布。这里随机变量X取值为实数，随机变量Y取值为1或0。可以通过有监督的方法来估计模型参数。优点：1. 计算代价不高，易于理解和实现；2. 适用于需要得到有分类概率额场景；3.对小数据噪声的鲁棒性好，不会收轻微的多重共线性的影响缺点：1. 容易欠拟合，分...

2018-07-30 22:06:19 3910

原创 Python数据挖掘入门与实践--用转换器抽取特征

数据来源：https://archive.ics.uci.edu/ml/datasets/Adult所使用的数据是描述人及其所处的环境，背景及其生活状况，挖掘目标是：预测一个人是否年收入要多于5 万美元 1.特征抽取：特征抽取是数据挖掘中最为重要的一个环节，一般而言，它最终的结果影响要高于数据挖掘算法本身。不幸的是，关于如何选取好的特征，还没有严格的...

2018-07-29 22:22:27 690

2011年，短链接服务商（URL shortening service）Bitly和美国政府网站USA.gov合作，提供了一份从用户中收集来的匿名数据，这些用户使用了结尾为.gov或.mil的短链接。在2011年，这些数据的动态信息每小时都会保存一次，并可供下载。不过在2017年，这项服务被停掉了。数据是每小时更新一次，文件中的每一行都用JOSN（JavaScript Object Notat...

2018-07-27 21:52:42 1743

原创 Python列表解析

列表解析：根据已有的列表，高效创建列表的方式。语法： 1.[expression for iter_val in iterable] 2.[expression for iter_val in iterable if cond_expr] L = [i**2 for i in range(1,11)]print(L) # [1, 4, 9, ...

2018-07-27 16:52:02 424

原创 pandas时间序列

时间序列（time series）数据是一种重要的结构化数据形式，。在多个时间点观察或测量到的任何时间都可以形成一段时间序列。很多时间，时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒。。。。）。时间序列也可以是不定期的。时间序列数据的意义取决于具体的应用场景。主要由以下几种：1.时间戳；（timestamp）特定的时刻2.固定时间：（perio...

2018-07-25 22:12:35 11743

原创 pandas中 transform 函数和 apply 函数的区别

There are two major differences between thetransformandapplygroupby methods.applyimplicitly passes all the columns for each group as aDataFrameto the custom function, whiletransformpasses ...

2018-07-25 16:16:56 10814 1

原创数组聚合和分组运算

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），这是数据分析工作的重要环节。在数据集准备好之后，通常任务就是计算分组统计或者生产透视表。pandas提供了一个灵活的高效的groupby 功能，它使你能以一种自然的方式对数据集进行切片，切块，摘要等操作。 goupby 技术： split - apply - combine （拆分- 应用- 合并）。例如...

2018-07-23 17:31:17 2232

原创超参数调节

1.网格搜索参数GridSearchCV 类class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, ...

2018-07-20 21:45:50 1671

原创 Python数据挖掘入门与实践---用决策树预测获胜球队

数据集来源：1.2013-14NBASchedule and Results 2.2013年 NBA 赛季排名情况参考书籍：《Python数据挖掘入门与实践》1.加载数据集：使用pandas加载数据集，有1319行数据， 8个特征，查看前5项数据集，并查找是否有重复数据#coding=gbk#使用决策树来预测获胜...

2018-07-20 17:22:40 3025 3

原创 sklearn中的几种二值化编码函数：OneHotEncoder, LabelEncoder , LabelBinarizer

1.自定义一些简单的数据集定义3个特征， age 和 salary 都是数值型， pet 是字符串型#coding=gbk#几种sklearn 中的二值化编码函数，import pandas as pdimport numpy as npfrom sklearn.preprocessing import OneHotEncoderfrom sklearn.preprocessi...

2018-07-19 17:03:45 5284 4

原创数据挖掘-聚类分析（Python实现K-Means算法）

概念：聚类分析（cluster analysis ）：是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析，或者数值分类。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或者相似度将其划分成若干个组，划分的原则是组内距离最小化而组间（外部）距离最大化。聚类和分类的不同在于：聚类所要求划分的类是未知的。聚类度量的方法：分距离和相似度来度量。...

2018-07-17 21:46:43 5208 1

原创时间序列模式（ARIMA）---Python实现

时间序列分析的主要目的是根据已有的历史数据对未来进行预测。如餐饮销售预测可以看做是基于时间序列的短期数据预测，预测的对象时具体菜品的销售量。1.时间序列算法：常见的时间序列模型;2.时序模型的预处理1. 对于纯随机序列，也称为白噪声序列，序列的各项之间没有任何的关系，序列在进行完全无序的随机波动，可以终止对该序列的分析。2. 对于平稳非白噪声序列， ...

2018-07-16 22:37:19 24189 14

原创 Python数据挖掘入门与实践---使用scikit-learn 估计器分类

本章的几个概念：估计器（estimator）用于分类、聚类和回归分析转换器（transformer）:用于数据预处理回来数据转换流水线（pipeline）：组合数据挖掘流程，便于在此使用 1.scikit-learn估计器数据集下载地址：UCI加载数据集：#coding=gbk #python 数据...

2018-07-16 17:15:24 1073

原创数据挖掘-关联分析 Apriori算法和FP-growth 算法

•1.关联分析概念关联分析是从大量数据中发现项集之间有趣的关联和相关联系。•定义：1、事务：每一条交易称为一个事务，如上图包含5个事务。2、项：交易的每一个物品称为一个项，例如豆奶，啤酒等。　3、项集：包含零个或多个项的集合叫做项集，例如{尿布，啤酒}。4、k−项集：包含k个项的项集叫做k-项集，例如 {豆奶，橙汁}叫做2-项集。5、支持度计数：一个项集出现在几个事务当...

2018-07-12 21:14:07 7156 1

原创数据挖掘-集成学习

1.集成学习概念：•个体学习器通常是用一个现有的学习算法从训练数据产生，例如C4.5决策树算法、BP神经网络算法等。此时集成中只包含同种类型的个体学习器，例如“决策树集成”中的个体学习器全是决策树，“神经网络集成”中就全是神经网络，这样的集成是“同质”（homogeneous）的，同质集成中的个体学习器也称为“基学习器”（baselearner），相应的学习算法称为“基学习算法”...

2018-07-11 22:01:33 1923

原创 scikit-learn 中常用的评估模型

一，scikit-learn中常用的评估模型1.评估分类模型：2.评估回归模型：二、常见模型评估解析：1）.回归模型评估：•1.均方误差（Mean Squared Error，MSE）•2.均方根误差（Root Mean Squared Error，RMSE）RMSE是一个衡量回归模型误差率的常用公式。然而，它仅能比较误差是相同单位的模型...

2018-07-10 16:48:34 2379

原创 Python中使用sklearn 的 Pipeline 管道机制

pipeline管道机制使用方法：流水线的输入为一连串的数据挖掘步骤，其中最后一步必须是估计器（Estimator），可理解成分类器前几步是转换器（Transformer）。输入的数据集经过转换器的处理后，输出的结果作为下一步的输入。最后，用位于流水线最后一步的估计器对数据进行分类。每一步都用元组（ ‘名称’，步骤）来表示。现在来创建流水线。pipe = Pipeline([('sc',Stand...

2018-07-10 16:20:58 23389 2

原创数据挖掘---支持向量机（SVM）

•1.SVM的基本思想：•SVM把分类问题转换成寻求分类平面的问题，并通过最大化分类边界点到分类平面的距离来实现分类。通俗的讲支持向量机的解决的问题是找到最好的分类超平面。支持向量机（Support vector machine)通常用来解决二分类问题2.构造目标函数类似于点到直线的距离，可以得到点到超平面的距离为 •在Logisti...

2018-07-07 22:39:48 2833

原创 Python的lambda 匿名函数结合reduce，内置函数filter，map的用法

python 中的匿名函数的使用匿名函数优点：　　- 使用Python写一些脚本时，使用lambda可以省去定义函数的过程，让代码更加精简。　　- 对于一些抽象的，不会被别的地方再重复使用的函数，有时候函数起个名字也是个难题，使用lambda不需要考虑命名的问题　　- 使用lambda在某些时候然后代码更容易理解#coding=gbk# #python 中的匿名函数的使用# 匿名函数优点：#...

2018-07-04 16:28:31 577

原创数据挖掘-KNN-K最近邻算法

1.算法核心思想：通过计算每个训练样本到待分类样本的距离，选取和待分类样本的距离最近的 K 个训练样本，K个样本中那个类别的训练样本占据着多数，则表明待分类的样本就属于哪一个类别。 KNN算法在类别的决策中，只与极少数的相邻样本相关。因此，对于类别的样本交叉或重叠较多的待分类样本集来说， KNN较其他算法较为适合。KNN算法的结果很大程度取决于K的选择。 ...

2018-07-03 16:53:05 1445

原创数据挖掘-决策树

1.什么是决策树：决策树是以树状结构表示数据分类的结果非叶子结点代表测试的条件。分支代表测试的结果2.如何构建决策树：´1.信息熵（informationentropy）：是度量样本集合纯度最常用的一种指标。2.基尼系数（gini）：是度量样本集合不确定性指标。（基尼指数与熵可近似看做是统一概念，都是越大，确定性越差）...

2018-07-02 20:19:40 12016

原创数据挖掘建模-Logistic回归

逻辑回归的基本过程：a建立回归或者分类模型--->b 建立代价函数 ---> c 优化方法迭代求出最优的模型参数 --->d 验证求解模型的好坏。1.逻辑回归模型：逻辑回归（Logistic Regression）：基于线性回归的分类算法。一般用于解决二分类问题。线性回归模型如下：逻辑回归思想是基于线性回归（Logistic Reg...

2018-07-01 21:07:45 2691

原创数据挖掘建模（1）分类与预测

经过数据探索和数据预处理，得到了可以直接建模的数据。根据挖掘目标，和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型和偏差检测等模型，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。分类与预测：分类模型的实现步骤：常用的分类与预测算法：可参考：逻辑回归（Logistic Regression）分类算法决策树（De...

2018-07-01 20:01:19 5888

mike_jun的博客