自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 python 基础-----list查找重复值

刚开始学python,在数据分析中遇到的基础需求,做一个记录。需求1:假设df1、df2两个数据集中分别有A、B列数据,需要判断A、B列的数据是否有差异,并显示差异的数据。需求2:假设有某列数据,需要判断该列数据是否包含重复项,包含的重复项是什么,重复了多少次。一、需求1解决1. 生成数据集import numpy as npimport pandas as pddf1...

2018-07-20 17:37:40 4114 1

原创 《机器学习实战》——决策树之关于熵的理解及python实现

《机器学习实战》第三章决策树提到信息增益和熵的含义,并含python代码实现,本文对代码进行了注释。一、熵的理解:信息论创始人克劳德·艾尔伍德·香农,引入了信息熵,表示随机变量不确定度的度量。公式如下:满足如下三条性质:单调性:发生概率越高的事件,所携带的信息熵越低。例:“太阳每天从东方升起”为确定事件,不携带信息,从信息论角度,没有消除任何不确定性,信息量为0。 非负性...

2018-07-17 18:08:20 619

原创 《机器学习实战》——K近邻算法Python实现问题记录 (2)文本解析

使用K邻近算法改进约会网站配对效果——文本文件解析到numpy,问题及解决记录def file2matrix(filename): #打开文件并得到文件行数 fr = open(filename) arrayOLines = fr.readlines() # 一次读取整个文件,自动将文件内容分析成一个行的列表 numberOfLi...

2018-07-17 11:58:10 493

原创 《机器学习实战》——K近邻算法Python实现问题记录(1)

《机器学习实战》第二章KNN算法,Python实现过程中出现的问题及解决方案记录(1)最终运行代码:import operatorimport numpy as npimport pandas as pdimport osos.getcwd()import KNN as knngroup,labels=knn.createDataSet()knn.classify0([0...

2018-07-17 10:33:43 892

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除