2016年08月_好多鱼哦

原创基于物品的协同过滤算法

场景：猜你喜欢数据量：大数据架构检验：准确率、召回率、覆盖率、流行度步骤：构建物品的同现矩阵建立用户对物品的评分矩阵同现矩阵*评分结果=矩阵计算结果选择结果列向量中最大的未评价的推荐具体实现：Hadoop+Mahout（数据模型、相似度、近邻、推荐、评分）测试数据集：rating.csv3列：用户ID，图书ID，评分数据记录数：4000次评

2016-08-30 00:14:55 753

原创图形推理

现在好多公司面试前都喜欢搞行政测试，尤其是图形推理。图形推理主要有以下几类：(一)数量类若一组图形中每幅图的组成较为凌乱，但局部显示有一定的数量变化。对于有这样特点的图形，通常从数量的角度来进行解题。重点仍然集中在点、线、角、面、素。例如：每列线的数量，选A。(二)位置类对于位置类图形推理题，一般来说，一组图形中元素个数完全相同，不同的是

2016-08-24 18:45:29 1279

原创机器学习基础

1.向量偏导公式2.标量对向量求导3.线性回归极大似然求解参数解析式->扰动解析式 4.梯度下降法求梯度批量梯度下降算法随机梯度下降算法5.Logistic回归参数求解与线性回归形式相同。

2016-08-23 13:51:38 316

原创数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（ Decision Support）。数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL （抽取 Extra, 转化 Transfer, 装载 Load）的过程， ETL 是数据仓库的流水线

2016-08-22 17:01:38 2336

原创大数据挖掘笔记2——PageRank

1.PageRankPageRank是一个函数，为Web中每个网页赋予一个实数值。PageRank值越高，越重要。Web转移矩阵：描述随机冲浪者下一步的访问行为。网页数目为n，则M为一个n*n的方阵。网页j有k条出链，则对链向网页i的元素值Mij=1/k。第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述，第j个分量代表

2016-08-21 15:53:04 1508

原创大数据挖掘笔记

1、度量给定词语在少数文档中的重要性：TF.IDF得分其中：tfij指词项i在文档j的词项频率，idfi指词项i在文档集中出现的逆文档频率。词项频率：逆文档频率：例如：文档集有2^20篇文档，w在其中2^10篇中出现，在文档k中，只出现1次，该文档任一赐予做多出现20次。于是有：tf(w,k) = 1/20, idf(w) = log(2^20/2^10) = 1

2016-08-20 22:33:16 610

原创 FP-growth算法

当搜索引擎输入一个单词的时候，会自动补全查询词项。用的就是FP-growth算法，一种用来高效发现频繁集的方法。比Apriori算法更快。应用：用于识别经常出现的元素相，制定决策、推荐元素或进行预测等。任务：将数据集存储在一个特定的称作FP树的结构之后发现频繁项对，即常在一块出现的元素项的集合FP树。执行速度比Apriori性能要好两个数量级以上。每次增加频繁项集的大小，Apriori

2016-08-18 19:01:56 800

原创矩阵求导公式

2016-08-17 15:55:55 653

原创 Static变量的作用

C++的static有两种用法：面向过程程序设计中的static和面向对象程序设计中的static。前者应用于普通变量和函数，不涉及类；后者主要说明static在类中的作用。1.面向过程设计中的static1.1静态全局变量在全局变量前，加上关键字static，该变量就被定义成为一个静态全局变量。静态全局变量有以下特点： • 该变量在全局数据区分配内存； • 未经初始化

2016-08-15 21:43:59 333

原创一定要看的几个问题（无序）

1.统计学习相关知识模型、策略、算法、logistic、SVM、决策树、KNN及各种聚类方法能写出核心伪代码和优化表达式、算法（梯度下降、牛顿法、随机搜索算法（基因、蚁群等））2.hadoop、python3.项目：ctr、搜索、广告、垃圾过滤、安全、推荐系统等4.推荐：各类协同过滤的好与坏5.LDA：共轭分布。6.Top-N推荐问题7.MapReduce模型

2016-08-13 17:56:55 830

原创数据挖掘面试常见的问题

一、进程与线程的区别，线程的缺点进程和线程都是由操作系统程序运行的基本单元，系统利用该基本单元实现系统对应用的并发性。区别在于：简而言之，一个程序至少有一个进程，一个进程至少有一个线程。线程的划分尺度小于进程，使得多线程程序的并发性高。另外，进程在执行过程中拥有独立的内存单元，而多个线程共享内存，从而极大地提高了程序的运行效率。线程在执行过程中与进程还是有区别的。每个独立的

2016-08-13 11:31:59 1337

原创 Python线程使用

一般创建threading.Thread的子类来包装一个线程对象import threadingimport timeclass timer(threading.thread): def __init__(self,num,interval): thredaing.thread__init__(self) self.thread_num = num self.interval

2016-08-12 21:50:24 321

原创 188. Best Time to Buy and Sell Stock IV

Say you have an array for which the ith element is the price of a given stock on day i.Design an algorithm to find the maximum profit. You may complete at most k transactions.Note:You may

2016-08-11 21:57:45 449

原创 c++一些用法小结（排序+数据结构）

1、各种排序算法的复杂度与稳定性：2、各数据存储结构的运行速度、存储效率及应用场景运行速度存储效率适用场景数组快高查找、矩阵操作链表较快较高频繁增删改、动态分配内存队列较快较高任务调度栈一般较高递归改写树较快一般层次关系描述

2016-08-10 16:46:25 308

原创 Apriori算法小结

1、Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成挖掘频繁项集。2、步骤：1).依据支持度找出所有频繁项集（频度）2).依据置信度产生关联规则（强度）3、概念对于A->B①支持度：support = P(A ∩B)，既有A又有B的概率②置信度：P(B|A) = p(AB)/P(A)，在A发生的事件中同时发生

2016-08-10 10:39:07 2010

原创各聚类算法比较

聚类的目标是使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。1.基于划分：给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K特点：计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法：K-MEANS算法、K-MEDOIDS算法、CLARANS算法2.基于层次：对给定的数据集进行层次似的分解，直到某种条件满

2016-08-09 21:57:16 4047

原创 c++字符串转数字的方法

1.stoi函数string ss;int temp = stoi(ss);2. stringstream类stringstream ss;ssint temp;ss>>temp;3.减法string ss;int temp = ss - '0';

2016-08-07 16:13:05 799

原创 Random Forest和Gradient Boosting调参小结

先补充一下相关概念：Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均，降低模型的 variance。Boosting 则是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行加权，所以随着迭代不断进行，误差会越来越小， bias 会不断降低。bagging中的模型是强模型，偏差低，方差高。目标是降低方差。在bagging中，每个模型的b

2016-08-04 22:12:59 2882

原创 OJ在线判题注意事项（C++版）

1.正确处理输入格式常见的输入格式预先不输入数据的组数预先输入数据的组数一组数据应对措施读到文件结尾读数据组数然后循环直接读数据代码while (cin>>a>>b) { cout<<a + b<< endl;}cin<<n;for (int i = 0; i < n; i++) { int a, b; cin>>a>>b; cout<<

2016-08-04 16:50:29 2071

原创堆排序算法

堆实际上是一棵完全二叉树，其任何一非叶节点满足性质： Key[i]=Key[2i+1]&&key>=key[2i+2]堆排序的思想:利用大顶堆(小顶堆)堆顶记录的是最大关键字(最小关键字)这一特性，使得每次从无序中选择最大记录(最小记录)变得简单，很适合求解top k.其基本思想为(大顶堆)： 1)将初始待排序关键字序列(R1,R2....R

2016-08-04 10:58:54 202

原创两个排序算法：快排+归并

快速排序算法实现：#includeusing namespace std;void quick_sort(int s[], int l, int r) { int i = l, j = r, mid = s[l]; while(i < j) { while(s[i] < mid) ++i; while(s[j] > mid) --j; if(i <= j) { swa

2016-08-03 11:37:08 418

原创 Hash表算法小结

Hash 表：O(1) 时间数据的插入删除和查找，无序，查找最大数据或者最小数据的时间是 O(N) 。由于存储的数据数量远远大于 hash 表存储单元的数量，所以再好的 hash 函数也可能使不同的数据得到相同的映射位置，这就造成了冲突。但是好的 hash 函数可以将这种冲突降到最低。解决冲突的办法：1.借助链表当产生冲突的时候，将两个数据都链接在同一 hash 存储单元保

2016-08-03 10:10:39 368

shuke1991的博客