机器学习
苦行之旅
蛰伏只是为了更好的爆发
展开
-
ICML 机器学习
http://icml.cc/2014/10.html加油原创 2013-12-06 17:24:27 · 891 阅读 · 0 评论 -
基于朴素贝叶斯的文本分类算法
基于朴素贝叶斯的文本分类算法 分类:数据挖掘2011-12-16 10:28 阅读(1516)评论(1)编辑删除基于朴素贝叶斯的文本分类算法 作者: 灵魂机器联系方式:soulmachine@gmail.com作者博客:www.yanjiuyanjiu.com摘要:常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现,运行转载 2014-01-07 16:53:38 · 1830 阅读 · 0 评论 -
python科学计算六:scipy矩阵操作
1、scipy.sparse.coo_matrix(arg1,shape=None,dtype=None,copy=False): 坐标形式的一种稀疏矩阵。优点:快速的和CSR/CSC formats转换、允许重复录入缺点:不能直接进行科学计算和切片操作 1)、构造过程: coo_matrix(D): with a dense matrix D原创 2013-12-23 12:01:18 · 36872 阅读 · 6 评论 -
scipy模块介绍
SciPy 是基于Numpy构建的一个集成了多种数学算法和方便的函数的Python模块。通过给用户提供一些高层的命令和类,SciPy在python交互式会话中,大大增加了操作和可视化数据的能力。通过SciPy,Python的交互式会话变成了一个数据处理和一个system-prototyping环境,足以和MATLAB,IDL,Octave,R-Lab,以及SciLab抗衡。 更重要的是,在P转载 2013-12-23 14:03:42 · 8796 阅读 · 1 评论 -
sklearn学习记录三:cross-validation
官方cross-validation模型评估方式详细说明 模型评估(预测的质量):存在三种方式来评估预测结果的质量1、Estimator score method:每个估计模型都有自己的评价方式,可以直接使用2、Scoring parameter:模型评价工具使用cross-validation(cross_validation.cross_val_score和grid_sea原创 2013-12-21 21:00:20 · 18724 阅读 · 1 评论 -
sklearn学习记录二:数据预处理
(1)数据标准化(Standardization or Mean Removal and Variance Scaling)进行标准化缩放的数据均值为0,具有单位方差。scale函数提供一种便捷的标准化转换操作,如下: [python] view plaincopy>>> from sklearn import preprocessi转载 2013-12-21 20:56:07 · 4520 阅读 · 1 评论 -
sklearn学习记录一:官方使用说明
本文参考官方网站:http://scikit-learn.org/stable/tutorial/basic/tutorial.htmlscikit-learn工具包自带一些标准数据集(包括iris和digits两个数据集),可以进行测试。(1)首先导入模块数据集:from sklearn import datasetsiris = datasets.load_iris()di转载 2013-12-21 20:53:04 · 4074 阅读 · 0 评论 -
Scikit Learn: 在python中机器学习
Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的句子,我以自己的理解意译。 翻译自:Scikit Learn:Machine Learning in Python作者: Fabian Pedregosa, Gael Varoquaux 先决条件 Numpy, Scipy IPython matplotlib scik转载 2013-12-20 00:30:05 · 1452 阅读 · 0 评论 -
python科学计算五:sklearn学习
官方资料http://scipy-lectures.github.io/advanced/scikit-learn/index.html原创 2013-12-19 22:59:28 · 1450 阅读 · 0 评论 -
python科学计算四:pandas
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel转载 2013-12-18 16:05:53 · 14218 阅读 · 0 评论 -
python科学计算三:nltk api查询
http://nltk.org/search.html原创 2013-12-18 16:03:01 · 1141 阅读 · 0 评论 -
python科学计算二:scikit-learn
经Edwin Chen的推荐,认识了scikit-learn这个非常强大的python机器学习工具包。这个帖子作为笔记。(其实都没有笔记的意义,因为他家文档做的太好了,不过还是为自己记记吧,为以后节省若干分钟)。如果有幸此文被想用scikit-learn的你看见,也还是非常希望你去它们的主页看文档。主页中最值得关注的几个部分:User Guide几乎是machine learning的索引,各转载 2013-12-18 01:31:45 · 3081 阅读 · 0 评论 -
判别模型、生成模型与朴素贝叶斯方法
1判别模型与生成模型上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后转载 2013-12-17 17:53:04 · 761 阅读 · 0 评论 -
python科学计算一:pandas
numpy和scipy是数值计算的扩展包,pandas是主要用来做数据处理(numpy依赖),sympy做符号计算,此外还有一些不太成熟的包如sciki learn,但是成熟度不如R。下面是pandas的文档http://pandas.pydata.org/pandas-docs/dev/10min.html原创 2013-12-17 17:50:52 · 1753 阅读 · 0 评论 -
Machine Learning for Large Scale Recommender Systems--Yahoo! Research
http://pages.cs.wisc.edu/~beechung/icml11-tutorial/ICML'11 Tutorial on Machine Learning for Large Scale Recommender SystemsDeepak Agarwal and Bee-Chung ChenYahoo! Research{dagarwal,beechun}@转载 2013-12-06 17:21:35 · 1439 阅读 · 0 评论 -
牛人共享的各种互联网资料
http://qun1.yunpan.360.cn/file/index/?gid=10073410#%2F转载 2013-12-05 10:13:09 · 733 阅读 · 0 评论 -
机器学习视频
http://work.caltech.edu/library/原创 2013-12-05 10:20:33 · 789 阅读 · 0 评论 -
推荐系统开源资料收集
收集和整理了目前互联网上能找到的开源推荐系统,并附上了个人的一些简单点评(未必全面准确),这个列表是目前为止比较全面的了,希望对大家了解掌握推荐系统有帮助(文/陈运文)SVDFeature由上海交大的同学开发,采用C++语言,代码质量很高。去年我们参加KDD竞赛时用过,很好很方便,而且出自咱们国人之手,所以置顶推荐!项目地址:http://svdfeature.转载 2013-12-09 15:34:29 · 1256 阅读 · 0 评论 -
基于naive bayes的文本分类算法
基于naive bayes的文本分类算法 2010-11-28 00:26:35| 分类: 数据挖掘 | 标签: |字号大中小订阅琢磨了两天,对于朴素贝叶斯的原理弄得很清楚,可是要做文本分类,看了好多文章知道基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类转载 2014-01-15 00:26:32 · 1213 阅读 · 0 评论