机器学习
健康平安的活着
再给我一次重生的机会,我将加倍珍惜,将java事业进行到底。
展开
-
决策树的代码实现
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: decision_tree.py@time: 2020-05-11 下午 4:03'''import pandas as pdfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.model_selection import train_test_splitfrom .原创 2020-05-11 18:49:15 · 405 阅读 · 1 评论 -
决策树
一.决策树的构建决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略:这里有信息增益,增益比,基尼系数这3种。所以说信息增益,增益比,基尼系数决定着决策树的划分。选择信息增益最大的属性,作为根节点,依次递归排列。二.熵和信息熵通常使用“熵”来度量样本集合的纯度,“熵”就是物体内部的混乱程度,理论上“熵”的值越小,数据集的“纯度”越高,下面是“熵”的计算公式:Pk指的是第k类样本所占的比率。信息熵:指的是测试属性对于样本纯度的增益效果,值越大越好,计算公式为:信息增益=样本的.原创 2020-05-11 18:46:53 · 1796 阅读 · 0 评论 -
为何要进行数据归一化?
待完善,先可参考地址https://cloud.tencent.com/developer/article/1456997原创 2020-03-10 18:07:31 · 300 阅读 · 0 评论 -
python中构建dataframe多维矩阵,实现修改某列值,新增一列,分组,过滤查询等操作
一.构建构建dataframe多维矩阵import numpy as npfrom pandas import DataFrameimport pandas as pd#构建dataframe,二维数组df = DataFrame(np.arange(25).reshape(5,5),index=['one','two','three','four','five'],columns=...原创 2020-02-23 19:57:39 · 2644 阅读 · 0 评论 -
python中 sklearn机器学习算法的实现-估计器
在sklearn中,估计器(estimator)是一个重要的角色,是一类实现了算法的API1.用于分类的估计器1.sklearn.neighbors k-近邻算法2.sklearn.naive_bayes 贝叶斯3.sklearn.linear_model.LoginsticRegression 逻辑回归4.sklearn.tree 决策树与随机森林2.用户回归...原创 2020-02-22 17:37:30 · 417 阅读 · 0 评论 -
数据样本,特征值,目标值,按比例划分
横着的一行叫数据样本,如竖着的每一列叫特征值:颜色,形状等列想要的分类结果,叫目标值,如类别这一列,A,B,C,有3个目标值#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: test.pyhttps://blog.csdn.net/qq_41797451/article/det...原创 2020-02-22 17:26:40 · 8235 阅读 · 0 评论 -
Python:sklearn数据预处理中fit(),transform()与fit_transform()的区别
一.前提sklearn里的封装好的各种算法使用前都要fit,fit相对于整个代码而言,为后续API服务。fit之后,然后调用各种API方法,transform只是其中一个API方法,所以当你调用transform之外的方法,也必须要先fit。二.比较1.有监督学习的算法fit(x,y)传两个参数。无监督学习的算法是fit(x),即传一个参数,比如降维、特征提取、标准化。2.fit_t...原创 2020-02-22 17:12:41 · 9170 阅读 · 0 评论 -
分类算法-朴素贝叶斯
一.数据集介绍20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类.。在sklearn中,该模型有两种装载方式,第一种是sklearn.datasets.fetch_20newsgroups,返回一个可以被文本特征提取器(如sklearn.feature_...原创 2020-02-21 16:07:31 · 303 阅读 · 0 评论 -
day03 数据预处理
# -*- coding: utf-8 -*-# @File : deal_null_demo.py# @Date : 2020-02-18 16:25# @Author : adminimport pandas as pdfrom sklearn.cluster import KMeans#获取数据的null值def p_max_min_null(): da...原创 2020-02-18 18:14:00 · 356 阅读 · 0 评论 -
机器学习算法-kmeans 聚类算法一
1.1k-means算法的步骤假设k=3,要分3个群体随机在数据当中抽取3个样本,当作三个类别的中心点(k1,k2,k3) 计算其余的点分别到这3个中心点的距离,每一个样本有3个距离(a,b,c),从中选出距离最近的一个点作为自己的标记形成3个族群。 分别计算这3个族群的平均值,把3个平均值与之前的3个旧中心点进行比较如果相同,结束聚类,算法收敛。如果不相同:把这3个平均值当做...原创 2020-02-18 11:45:58 · 1261 阅读 · 0 评论 -
机器学习算法之-kemans 聚类算法
数据集:Id R F M 1 27 6 232.61 2 3 5 1507.11 3 4 16 817.62 4 3 11 232.81 5 14 7 1913.05 6 19 6 220.07 7 5 2 615.83 ...原创 2020-02-17 19:16:09 · 1017 阅读 · 0 评论 -
各种距离公式
原创 2020-02-17 18:31:59 · 516 阅读 · 0 评论 -
数据分析 各种第三方lib库的介绍
原创 2020-01-12 17:26:11 · 810 阅读 · 0 评论 -
机器学习day02-特征工程
2.1数据集2.1.1离散型离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,班级人数、进球个数、是否是某个类别等等。2.1.2 连续型连续型数据是指在指定区间内可以是任意一个数值,例如,票房数据、花瓣大小分布数据。首先连续型数据是有规律的,离散型数据是没有规律的只要记住一点,离散型是区间内不可分,连续型是区间内可分2.1.3 数据集的数据结构组成...原创 2019-12-24 21:20:50 · 571 阅读 · 0 评论 -
机器学习-day02-数据标准化方法
评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的多个指标的信息综合起来,并得到一个综合指标,由此对评价对象做一个整体上的评判,并进行横向或纵向比较。而在多指标评价...原创 2019-12-22 12:19:43 · 619 阅读 · 0 评论 -
机器学习day01------综述
一.机器学习1.1机器学习概述机器学习是人工智能的一个分支,机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法。1.2为何要学机器学习21世纪机器学习又一次被人们关注,而这些关注的背后是因为整个环境的改变,我们的数据量越来越多,硬件越来越强悍。急需要解放人的生产力,自动去寻找数据的规律。解决更多专业领域的问题。机器学习已广泛应用于数据挖掘、计算机...原创 2019-12-22 11:45:30 · 324 阅读 · 0 评论