2016年06月_suibianshen2012

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 python 机器学习的开发环境搭建（numpy，scipy,matplotlib,scikit-learn）

一、概述用Python来编写机器学习方面的代码是相当简单的，因为Python下有很多关于机器学习的库。其中下面三个库numpy，scipy,matplotlib,scikit-learn是常用组合，分别是科学计算包，科学工具集，画图工具包,机器学习工具集。numpy :主要用来做一些科学运算，主要是矩阵的运算。NumPy为Python带来了真正的多维数组功能，并且提供了丰富的函数库处理这些

2016-06-29 17:28:28 1206

原创 python中range()、xrange()和np.arange()区别

1、range多用作循环，range（0,10）返回一个range对象，如想返回一个list，前面加上list转换；2、arange是numpy模块中的函数，使用前需要先导入此模块，arange(3):返回array类型对象。【注：range()中的步长不能为小数，但是np.arange()中的步长可以为小数】3、xrange()也是用作循环，只是xrang(0,10)

2016-06-29 11:23:03 27511 1

转载 c语言中如何返回一个数组函数

在C语言中，无法直接返回一个数组，但是可以通过返回对应类型指针的方式，返回数组。在大多数情况下，一维数组和一维指针是可以通用的。比如，定义一个函数，申请一定长度的整型动态数组，其长度用参数传入，并将结果返回。如出错，返回空指针NULL。代码可以写成如下形式：int *int_array_create(int n)//参数n为数组元素个数{ int *r;

2016-06-28 22:13:54 22485 2

原创最大公约数和最小公倍数

1）最大公约数（最大公因数）就是几个数公有的因数中最大的一个.例12与1812的因数有1,12,2,6,3,418的因数有1,18,2,9,6,3公有的因数有1,2,3,6,所以6就是12与18的最大公约数.2）最小公倍数就是几个数公有的倍数中最小的一个.例4和6 4的倍数有4,8,12,16,20,24,……6的倍数有6,12,18,24,……4和6

2016-06-28 19:36:57 943

转载 hive内部表、外部表

hive内部表、外部表区别自不用说，可实际用的时候还是要小心。1. 内部表：[sql] view plain copy print?create table tt (name string , age string) location '/input/table_data'; 此时，会在hdfs上新建一个tt表的数据存放

2016-06-24 10:04:58 830

转载推荐系统解决冷启动问题策略

作者：刘彦彬链接：http://www.zhihu.com/question/19843390/answer/40454433来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。推荐系统冷启动在不同的产品，不同的应用场景会有不同的做法，通用的做法其他的知友都已经有说明，即通过不同的维度获取用户的基本特征，操作习惯，从而进行粗粒度的推荐，但确实说起来

2016-06-21 21:20:32 2994

转载基于用户的协同过滤和基于物品的协同过滤推荐算法原理和实现

在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最

2016-06-21 20:56:09 5928

转载用朴素贝叶斯进行文本分类(上)

1. 引言贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式贝叶斯公式就一行：P ( Y | X ) = P ( X | Y ) P ( Y ) P ( X )而它其实是由以下的联合概率公式推导出

2016-06-08 15:57:30 4723

转载文本分类与SVM

1、基础知识1. 1 样本整理文本分类属于有监督的学习，所以需要整理样本。根据业务需求，确定样本标签与数目，其中样本标签多为整数。在svm中其中如果为二分类，样本标签一般会设定为-1和1，而在朴素贝叶斯方法中，一般为0和1，但不是固定的，标签的设置和算法本身的性质有关的。如下面的整理的样本，1为正类，-1为反类（为了能便于展示，这里使用了一些即时聊天工具中的文本，里面的一些

2016-06-08 15:20:19 4450

协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类，分别是基于用户的协同过滤算法(user-based collaboratIve filtering)，和基于物品的协同过滤算法(item-based collaborative filtering

2016-06-06 15:49:01 1546

转载基于用户的协同过滤推荐算法原理和实现

在推荐系统众多方法中，基于用户的协同过滤推荐算法是最早诞生的，原理也较为简单。该算法1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年，该算法都是推荐系统领域最著名的算法。本文简单介绍基于用户的协同过滤算法思想以及原理，最后基于该算法实现园友的推荐，即根据你关注的人，为你推荐博客园中其他你有可能感兴趣的人。基本思想

2016-06-05 22:56:28 1001

转载机器学习-KMeans聚类 K值以及初始类簇中心点的选取

KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。 KMeans算法本身思想比较简单，但是合理的确定K值和K个初始

2016-06-04 15:25:10 21949 1

常用中文停用词

常用的中文停用词，停止词，stopword

2017-05-08

20news-bydate.tar.gz 文本分类数据集 20news

2016-05-19

集体智慧编程（中文版）

本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。全书内容翔实，包括协作过滤技术（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术（垃圾邮件过滤、文本过滤）、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的绝佳选择。

2016-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

suibianshen2012的专栏

原创 python 机器学习的开发环境搭建（numpy，scipy,matplotlib,scikit-learn）

原创 python中range()、xrange()和np.arange()区别

转载 c语言中如何返回一个数组函数

原创最大公约数和最小公倍数

转载 hive内部表、外部表

转载推荐系统解决冷启动问题策略

转载基于用户的协同过滤和基于物品的协同过滤推荐算法原理和实现

转载用朴素贝叶斯进行文本分类(上)

转载文本分类与SVM

转载协同过滤推荐算法的原理及实现

转载基于用户的协同过滤推荐算法原理和实现

转载机器学习-KMeans聚类 K值以及初始类簇中心点的选取

常用中文停用词

20news-bydate.tar.gz 文本分类数据集 20news

集体智慧编程（中文版）

推荐系统实践

codeblocks使用教程 linux版

rfc2616中文版

2012年5月上半年软件设计师考试试题及其答案

2011下半年软件设计师试题及其答案

2012软件设计师试题及答案

Maven下建立web工程详细步骤

Spring Security 3.x.chm 中文参考手册

Spring2.5+Struts1.3.8+Hibernate3.0整合

struts1.2源码

ssh1实现简单的增删查改i+ssh2实现crud

空空如也

常用中文停用词

20news-bydate.tar.gz 文本分类 数据集 20news

集体智慧编程（中文版）

推荐系统实践

codeblocks使用教程 linux版

rfc2616中文版

2012年5月上半年软件设计师考试试题及其答案

2011下半年软件设计师试题及其答案

2012软件设计师试题及答案

Maven下建立web工程详细步骤

Spring Security 3.x.chm 中文参考手册

Spring2.5+Struts1.3.8+Hibernate3.0整合

struts1.2源码

ssh1实现简单的增删查改i+ssh2实现crud

空空如也

20news-bydate.tar.gz 文本分类数据集 20news