自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 机器学习算法需要注意的一些问题

对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到的。就拿有监督的学习的二分类问题来说吧,我们需要正例和负例样本的标注。如果我们拿到的训练数据正例很少负例很多,那么直接拿来做分类肯定是不行的。通常需要做以下方案处理:1.1 数据集角度通过调整数据集中正负样本的比例来解决数

2015-07-28 19:22:58 4776 2

转载 逻辑回归与决策树在分类上的一些区别

转自:http://www.itongji.cn/article/121930092013.html营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解决“分类”问题的高手。用不同的算法解答同样的问题,自然引出了两者孰优孰劣的讨论,但迄今为止,仍然没有一

2015-07-23 15:14:30 11513

原创 Python字典key值查询效率低的问题

最近用Python脚本处理数据。需要建立了一个字典,大概有200w个键值对,然后将这个字典用pickle存起来。在建立这个字典的时候,发现特别的慢。于是乎,尽量减少输出语句。发现还是很慢。估计了一下居然要超过一天!然后,我耐心地一行代码一行代码地分析运行效率的问题。最后发现,瓶颈竟然是在这一句: if mykey not in myDict.keys(): 其实我建立字典并没有必要做这个判断,于

2015-07-18 12:53:03 9403 9

原创 总结PageRank

PageRank 当我们根据关键词搜索互联网上的内容时,对于不止一个的搜索结果,谁先谁后呢?PageRank就是为了解决这个问题而生的。 PageRank,一个对网页进行排序的算法,由佩奇和布林为Google设计。该算法将整个互联网中的网页看做是一个整体,不考虑具体每一个网页的内容属性,而只关注网页之间的关联。 我们知道,网页之间的关系无非就是链接的指入和指出。PageRank认为,如

2015-07-17 17:14:25 914

原创 Apriori算法简单总结

关联分析是一种在大规模数据集中寻找有趣关系的任务。Apriori是解决这一问题的基本算法。这个算法也是数据挖掘的入门算法。 首先明确两个个概念:频繁项集和关联规则。 - 频繁项集:经常出现在一块儿的物品的集合。 - 关联规则:暗示两种物品之间可能存在很强的关系。 那么,如何定量地定义这种很强的“关系”?“频繁”又是什么?这里又必须明确两个概念:支持度和可信度。 -

2015-07-16 16:42:39 4532

原创 经典算法总结之AdaBoost与随机森林

Boost方法以及随机森林是最近比较火的算法,具有很多优点能够解决很多问题。现在先把重要概念总结一下,有新的想法随时补充~

2015-07-13 16:01:17 9890 5

原创 UnicodeDecodeError: 'ascii' codec can't decode byte 0xd3 in position 1: ordinal not in range(128)

用Python调用画图模块matplotlib的时候,运行老是报错:“UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xd3 in position 1: ordinal not in range(128)”。网上都是说字符编码问题,最常见的解决方法是,在脚本开头加上这样的代码:import sysreload(sys)sys.setde

2015-07-10 14:36:10 2363

原创 Python使用libsvm的“ImportError: No module named svmutil”问题

这几天快被Python的一些细节问题整死了,浪费了不少时间。现在把这些记录下来,让遇到同样问题的朋友少走弯路。

2015-07-10 14:20:40 13550 1

原创 SVM学习记录1:线性可分硬间隔最大化

SVM是机器学习中非常流行的一个分类算法,尤其是处理二分类问题。但是相对于其他算法SVM可能难度稍大——至少我是这么觉得。但是,这又是一个必须攻克的课题。我在学习SVM的时候痛下决心,将自己的学习历程记录在笔记本上。现在将其整理成博客,与诸君共勉。

2015-07-06 17:00:46 3679

原创 对逻辑斯蒂回归的一些细节剖析

首先声明:本博客的写作思路是对机器学习的一些基本算法做一些通俗性的灵活理解,以及对一些细节的进行简单剖析,还有记录本人在使用算法时的一些小经验小感想。本人一般不会对基本公式做大量推导,也不会写的太正式,这些可以在很多其他博客中找到。由于本人还是学生一枚,经验知识粗浅,还望能和朋友们参与讨论。之前本博客简单谈过线性回归相关知识点,这次来谈一下逻辑斯蒂回归。虽然也叫回归,但是逻辑斯蒂回归是一种分类算法。

2015-07-04 15:48:37 9801 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除