2017年11月_千寻～

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载推荐算法--基于物品的协同过滤算法

“无意中发现了一个巨牛的人工智能教程，忍不住分享一下给大家。教程不仅是零基础，通俗易懂，而且非常风趣幽默，像看小说一样！觉得太牛了，所以分享给大家。点这里可以跳转到教程。”ItemCF：ItemCollaborationFilter，基于物品的协同过滤算法核心思想：给用户推荐那些和他们之前喜欢的物品相似的物品。比如，用户A之前买过《数据挖掘导论》，该算法会根据此行为给你推荐《机器...

2017-11-27 21:30:22 37587 9

原创推荐算法概述：基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法

“无意中发现了一个巨牛的人工智能教程，忍不住分享一下给大家。教程不仅是零基础，通俗易懂，而且非常风趣幽默，像看小说一样！觉得太牛了，所以分享给大家。点这里可以跳转到教程。”所谓推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西。推荐算法主要分为两种1. 基于内容的推荐基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤，所谓的基于内容的推荐方法...

2017-11-27 21:23:28 25390 4

转载推荐算法--基于用户的协同过滤算法

基于邻域的算法分为两大类，一类是基于用户的协同过滤算法，另一类是基于物品的协同过滤算法。我们先来看看基于用户的协同过滤算法，基于物品的协同过滤算法大体思路和基于用户的差不多，可以自己参考对比学习。基于用户的协同过滤算法每年新学期开始，刚进实验室的师弟总会问师兄相似的问题，比如“我应该买什么专业书啊”、“我应该看什么论文啊”等。这个时候，师兄一般会给他们做出一些推...

2017-11-27 19:47:27 11195 1

原创关联规则分析二

关联规则是形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)故事在描述有关关联规则的一些细节之前，先来看一个有趣的故事： "尿布与啤酒"的故事。在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个

2017-11-27 17:22:00 1886

数据挖掘是指以某种方式分析数据源，从中发现一些潜在的有用的信息，所以数据挖掘又称作知识发现，而关联规则挖掘则是数据挖掘中的一个很重要的课题，顾名思义，它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子，比如通过调查商场里顾客买的东西发现，30%的顾客会同时购买床单和枕套，而购买床单的人中有80%购买了枕套，这里面就隐藏了一条关联：床单—>枕套，也就是说很大一部分顾客会同时购买床单和

2017-11-27 17:11:03 19556

原创机器学习---分类、回归、聚类、降维的区别

由上图我们可以看到，机器学习分为四大块，分别是 classification (分类)， regression (回归), clustering (聚类), dimensionality reduction (降维)。给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题，反之，如果 y 是连续

2017-11-26 15:43:24 22218

原创 Python---copy()、deepcopy()与赋值的区别

copy()与deepcopy()之间的主要区别是python对数据的存储方式。首先直接上结论：—–我们寻常意义的复制就是深复制，即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。—–而浅复制并不会产生一个独立的对象单独存在，他只是将原有的数据块打上一个新标签，所以当其中一个标签被改变的时候，数据块就会发生变化

2017-11-22 16:04:35 117129 26

转载 python中可变和不可变对象（复值，拷贝，函数值传递）

python中有可变对象和不可变对象，可变对象：list,dict.不可变对象有:int,string,float,tuple.最近看到这些知识下面来整理一下...python不可变对象int,string,float,tuple先来看一个例子 def int_test(): i = 77 j = 77 print(id(77))

2017-11-22 10:38:50 3323

原创 sklearn工具包---分类效果评估（acc、recall、F1、ROC、回归、距离）

一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率第一种方式：accuracy_score# 准确率import numpy as npfrom sklearn.metrics import accuracy_scorey_pred = [0, 2, 1, 3,9,9,8,5,8]y_true = [0, 1, 2, 3,2,6,3,5,9] #共9个数据，3个...

2017-11-21 17:20:37 15504 2

转载 Sklearn工具包---train_test_split随机划分训练集和测试集

一般形式：train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和test data，形式为：X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_

2017-11-21 16:31:55 5999

原创 XGBoost简介---相关概念、原理

XGBoost是2014年2月诞生的专注于梯度提升算法的机器学习函数库，此函数库因其优良的学习效果以及高效的训练速度而获得广泛的关注。仅在2015年，在Kaggle竞赛中获胜的29个算法中，有17个使用了XGBoost库，而作为对比，近年大热的深度神经网络方法，这一数据则是11个。在KDDCup 2015竞赛中，排名前十的队伍全部使用了XGBoost库。 XGBoost不仅学习...

2017-11-21 09:25:59 2082

转载 pandas数据合并与重塑---join、merge方法

在上一篇文章中，我整理了pandas在数据合并和重塑中常用到的concat方法的使用说明。在这里，将接着介绍pandas中也常常用到的join 和merge方法mergepandas的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。和SQL语句的对比可以看这里merge的参数on：列名，

2017-11-20 16:29:59 1946

转载 pandas数据合并与重塑---concat方法

谈到pandas数据的行更新、表合并等操作，一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说，都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并和重述的章节做个使用方法的总结。1、concatpd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,

2017-11-20 16:27:55 2003

转载统计学习方法---

4、朴素贝叶斯法http://www.hankcs.com/ml/naive-bayesian-method.htmlhttp://blog.csdn.net/u010626937/article/details/738107535、决策树http://www.hankcs.com/ml/decision-tree.html

2017-11-15 14:42:04 313

转载统计学习方法---k近邻法

本文对应《统计学习方法》第3章，用数十行代码实现KNN的kd树构建与搜索算法，并用matplotlib可视化了动画观赏。k近邻算法给定一个训练数据集，对新的输入实例，在训练数据集中找到跟它最近的k个实例，根据这k个实例的类判断它自己的类（一般采用多数表决的方法）。k近邻模型模型有3个要素——距离度量方法、k值的选择和分类决策规则。模型

2017-11-14 16:59:05 630

转载统计学习方法---KNN(K近邻)

前言k邻近算法（k-nearest）是一种判别模型，解决分类问题和回归问题，以分类问题为主，在此我们也主要介绍分类问题中的k近邻算法。k近邻算法的输入为实例的特征向量，对应予特征空间中的点；输出为实例的类别，可以取多类，（前面我们介绍的三种方法主要是解决二分类问题）。k近邻算法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等决策方法进...

2017-11-14 16:51:47 1384

转载统计学习方法---感知机算法拓展（神经网络）

神经元神经元是神经网络的基本单元，接受多个神经元传递过来的输入信号，然后通过激活函数计算输出信号。从图里可以看到每个输入信号都有一个权重w，这个权重是动态改变的。我们平时所说的训练神经网络主要是训练（修正）这个权重w。同时每个神经元有一个参数theta，这个theta是阈值，生物意义上，如果输入信号的加权和比阈值高，意味着这个神经元被激活（处于兴奋状态）。信号向下一

2017-11-14 16:35:51 1007

转载统计学习知识---感知机学习算法的拓展（非线性可分数据问题）

感知机算法中的优化方法的几何解释本部分参考台湾大学林轩田教授机器学习基石课程—PLA部分PLA算法只有在出现错误分类的时候，才去调整w和b的值，使得错误分类减少。假设我们遇到的数据点(xn,yn)是我们第t次分类错误，那么就有因为是二分类问题，所以只会出现以下两种错误分类的情况：第一种：当yn=+1 时，则我们的错误结果为wTxn=wt∗xn=||w||∗||xn||∗cosΘ&lt...

2017-11-14 16:27:59 2326 3

转载统计学习方法---感知机算法实现代码

算法一首选，我们利用Python，按照上一节介绍的感知机算法基本思想，实现感知算法的原始形式和对偶形式。#利用Python实现感知机算法的原始形式# -*- encoding:utf-8 -*-"""Created on 2017.6.7@author: Ada"""import numpy as npimport matplotlib.pyplot as plt

2017-11-14 16:23:40 745

转载统计学习方法----统计学习知识综述

第一章统计学习方法概论统计学习的主要特点是（1）平台--------计算机及网络，是建立在计算机及网络之上的；（2）研究对象--------数据，是数据驱动的学科；（3）目的---------对数据进行预测与分析；（4）中心---------方法，统计学习方法构建模型并应用模型进行测试与分析；（5）交叉学科--------概率论、统计学、信息论、计算理论、最优化理论以及计算机

2017-11-14 15:32:33 758 1

转载统计学习方法---感知机

《统计学习方法》系列笔记的第一篇，对应原著第二章。大量引用原著讲解，加入了自己的理解。对书中算法采用Python实现，并用Matplotlib可视化了动画出来。概念感知机是二分类模型，输入实例的特征向量，输出实例的±类别。感知机模型定义假设输入空间是，输出空间是，x和y分属这两个空间，那么由输入空间到输出空间的如下函数：称为感知机。其中，

2017-11-14 11:04:12 428

原创 Ubuntu 安装和配置Tomcat

步骤1、官方网站下载最新的tomcat：http://tomcat.apache.org/download-80.cgi在ubuntu上，我们选择下载zip和tar.gz。步骤2、解压tomcat 8，用下面的命令（我下载的是tar.gz格式的）：tar -zxvfapache-tomcat-8.0

2017-11-09 15:33:15 10710

原创 NumPy的拷贝和视图（完全不拷贝、视图或浅拷贝、深拷贝）

当对数组进行运算和操作时，其数据有时会被拷贝到一个新的数组而有时又不会拷贝。这一点常常对刚使用NumPy的用户造成困惑。以下有三种情况:1. 完全不拷贝简单的任务是不会对数组或其数据进行拷贝的。>>> a = np.arange(12)>>> b = a # 不会创建新的对象>>> b is a # a和b是同一个ndarray对象

2017-11-06 17:24:08 3493

原创 python中range()、numpy.arange()区别

1、range多用作循环，range（0,10）返回一个range对象，如想返回一个list，前面加上list转换；2、arange是numpy模块中的函数，使用前需要先导入此模块，arange(3):返回array类型对象。【注：range()中的步长不能为小数，但是numpy.arange()中的步长可以为小数】

2017-11-06 14:49:51 3240

原创 neo4j图数据库--Cypher入门

1、Cypher 查询语言简单使用1.1.基本语法 Node语法： Cypher使用一对圆括号来表示一个节点：提供了多种格式如下：( ) 匿名节点(matrix) 为节点添加一个ID(:Movie) Movie label标签，声明的是节点类型。noe4j的索引使用label，每个索引由标签和属性组成(matrix:Movie)(matrix:Movie {title: ...

2017-11-06 11:30:10 3305

原创 neo4j常用命令

// 模糊匹配 MATCH (n:Province) where n.name=~"河南.*" RETURN n必须以~开头，字符串内用.* 代表任意字符 //清空neo4j 数据库match(n) optional match(n)-[r]-() delete n,r //删除关系和节点 MATCH (n1)-[r:关系标签]->(n2:标签)...

2017-11-05 15:13:40 5038

原创 Neo4j启动失败/usr/share/neo4j/bin/neo4j: line 411: /var/run/neo4j/neo4j.pid: No such file or directory

启动Neo4j报错如下： root@yumh: neo4j restartNeo4j not runningStarting Neo4j.WARNING: Max 1024 open files allowed, minimum of 40000 recommended. See the Neo4j manual./usr/share/neo4j/bin/neo4j: 行 41...

2017-11-02 10:33:41 5193 1

原创 Neo4j启动失败Max 1024 open files allowed, minimum of 40000 recommended. See the Neo4j manual.

Starting Neo4j.WARNING: Max 1024 open files allowed, minimum of 40000 recommended. See the Neo4j manual./usr/share/neo4j/bin/neo4j: line 411: /var/run/neo4j/neo4j.pid: No such file or directoryroo...

2017-11-02 10:04:28 5494 3