- 博客(4)
- 收藏
- 关注
原创 python 基础-----list查找重复值
刚开始学python,在数据分析中遇到的基础需求,做一个记录。需求1:假设df1、df2两个数据集中分别有A、B列数据,需要判断A、B列的数据是否有差异,并显示差异的数据。需求2:假设有某列数据,需要判断该列数据是否包含重复项,包含的重复项是什么,重复了多少次。一、需求1解决1. 生成数据集import numpy as npimport pandas as pddf1...
2018-07-20 17:37:40 4114 1
原创 《机器学习实战》——决策树之关于熵的理解及python实现
《机器学习实战》第三章决策树提到信息增益和熵的含义,并含python代码实现,本文对代码进行了注释。一、熵的理解:信息论创始人克劳德·艾尔伍德·香农,引入了信息熵,表示随机变量不确定度的度量。公式如下:满足如下三条性质:单调性:发生概率越高的事件,所携带的信息熵越低。例:“太阳每天从东方升起”为确定事件,不携带信息,从信息论角度,没有消除任何不确定性,信息量为0。 非负性...
2018-07-17 18:08:20 619
原创 《机器学习实战》——K近邻算法Python实现问题记录 (2)文本解析
使用K邻近算法改进约会网站配对效果——文本文件解析到numpy,问题及解决记录def file2matrix(filename): #打开文件并得到文件行数 fr = open(filename) arrayOLines = fr.readlines() # 一次读取整个文件,自动将文件内容分析成一个行的列表 numberOfLi...
2018-07-17 11:58:10 493
原创 《机器学习实战》——K近邻算法Python实现问题记录(1)
《机器学习实战》第二章KNN算法,Python实现过程中出现的问题及解决方案记录(1)最终运行代码:import operatorimport numpy as npimport pandas as pdimport osos.getcwd()import KNN as knngroup,labels=knn.createDataSet()knn.classify0([0...
2018-07-17 10:33:43 892
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人