Python
zhihua_bupt
极客码农,Coding the life,Coding the world!!!
展开
-
Python实现K-means聚类
kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。kmeans算法步骤:1 随机选取k个中心点2 遍历所有数据,将每个数据划分到最近的中心点中3 计算每个聚类的平均值,并作为新的中心点4 重复2-3,直到这k个中线点不再变原创 2015-11-21 17:19:31 · 2972 阅读 · 0 评论 -
Windows下Python安装教程与常见问题
1.安装PythonPython3.x版本与Python2.x版本有很多语法差异,并且不兼容2.x版本,而且现在网上很多资料都是关于Python2.x的,所以建议安装2.x的版本。本文安装的是Python2.7.8,由于自己的win64位的操作系统,刚开始照网上安装64位的教程进行了安装和配置numpy和scipy软件包,比如这个资源链接点击打开链接,http://download.csd原创 2015-11-21 16:23:10 · 5644 阅读 · 0 评论 -
机器学习实战笔记——利用SVD简化数据
SVD(Singular Value Decomposition)奇异值分解,可以用来简化数据,去除噪声,提高算法的结果。一、SVD与推荐系统下图由餐馆的菜和品菜师对这些菜的意见组成,品菜师可以采用1到5之间的任意一个整数来对菜评级,如果品菜师没有尝过某道菜,则评级为0建立一个新文件svdRec.py并加入如下代码:def loadExData(): return[原创 2016-01-11 11:07:53 · 5316 阅读 · 8 评论 -
机器学习实战笔记——基于SVD的图像压缩
原始图像大小为32 X 32=1024像素,利用SVD来对数据降维,实现图像的压缩新建一个svdRec.py文件,加入如下代码:#printMat()函数用于打印矩阵 def printMat(inMat, thresh=0.8): for i in range(32): for k in range(32): if fl原创 2016-01-11 17:32:07 · 5649 阅读 · 3 评论 -
"阿里巴巴"杯北邮数据挖掘竞赛(一)
一、赛题介绍在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。 本届赛题的任务就是根据用户近200天在天猫的行为日志,建立用户的品牌偏好,并对用户的性别和年龄进行分类。 根据性别和年龄将用户分为了12类,建议参赛者考虑类别不平衡问题(偏斜不严重)。比赛共约700MB的数据量,按6:2:2的比例分配与训练集、测试集1、测试集2。原创 2016-03-04 16:58:58 · 2846 阅读 · 1 评论 -
机器学习实战笔记——KNN算法
一、KNN算法描述KNN(K-nearest neighbor algorithm),也就是K近邻算法,顾名思义,可以形象的理解为求K个最近的邻居。当K=1时,KNN算法就成了最近邻算法,即寻找最近的那个邻居。所谓K近邻算法,就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(就是上面提到的K个邻居),如果这K个实例的多数属于某个类,就将该输入实例分类到这个原创 2016-01-15 10:01:20 · 3399 阅读 · 0 评论 -
Python“Non-ASCII character 'xe5' in file”报错问题
今天在编译一个Python程序的时候,一直出现“Non-ASCII character 'xe5' in file”报错问题SyntaxError: Non-ASCII character '\xe5' in file kNN.py on line 24, but no encoding declared; see http://python.org/dev/peps/pep-0263/ fo原创 2016-01-14 09:41:51 · 112150 阅读 · 9 评论 -
Python缩进快捷键
1.Python增加缩进快捷键:Ctrl+Alt+] 或tab键或shift+tab键2.Python减少缩进快捷键:Ctrl+Alt+[原创 2016-01-11 15:11:41 · 42371 阅读 · 0 评论 -
Python的基本语法——语句块
1.语句块是在条件为真(条件语句)时执行或者执行多次(循环语句)的一组语句;2在代码前放置空格来缩进语句即可创建语句块,语句块中的每行必须是同样的缩进量;3.缩进:Python开发者有意让违反了缩进规则的程序不能通过编译,以此来强制程序员养成良好的编程习惯;4.Python语言利用缩进表示语句块的开始和退出(Off-side规则),而非使用花括号或者某种关键字;5.增加缩进表示语句原创 2016-01-11 14:51:31 · 17452 阅读 · 0 评论 -
机器学习实战笔记——基于KNN算法的手写识别系统
利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示:首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量:def img2vector(filename): retu原创 2016-01-17 14:16:50 · 4645 阅读 · 2 评论 -
机器学习实战笔记——利用KNN算法改进约会网站的配对效果
一、案例背景我的朋友海伦一直使用在线约会网站寻找合适自己的约会对象。尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人。经过一番总结,她发现曾交往过三种类型的人:(1)不喜欢的人;(2)魅力一般的人;(3)极具魅力的人;尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归入恰当的分类,她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴原创 2016-01-17 12:57:55 · 6559 阅读 · 4 评论 -
机器学习实战笔记——微软小冰的读心术与决策树
最近微信朋友圈很多人在转发的一个游戏叫做“微软小冰读心术”,游戏的规则很简单:参与游戏的一方在脑海里想好一个人的名字,然后微软小冰会问你15个问题,问题的答案只能用“是”、“不是”或者“不知道”回答。微软小冰通过你的回答进行推断分解,逐步缩小待猜测人名的范围,决策树的工作原理与这些问题类似,用户输入一系列数据,然后会给出游戏的答案。一、决策树原创 2016-01-23 22:39:00 · 11833 阅读 · 0 评论