Zhang's Wikipedia

玩就玩大的

Tricks(十七) —— 数组与字典(map)

(1)数组也能实现一种映射(map),将下标映射为下标对应的值,数组和字典甚至映射的形式都是一样的,都是使用中括号。arr[0] = 1; m["InsideZhang"] = 23; (2)数组能做的事,字典都能完成;而字典能做的事,数组却未必能。也即数组是 key 受限(必...

2016-03-31 23:43:23

阅读数:430

评论数:0

Python 标准库—— datetime(运行时间的判断)

Python 内置的时间处理库。

2016-03-31 22:52:30

阅读数:796

评论数:0

机器学习基础(三十七) —— 处理类别特征

当类别特征仍保持原始形式时,其取值来自所有可能取值构成的集合而不是一个数字,故不能作为输入。当各个取值之间是没有顺序关系的并列关系,这样的类别特征称为 名义(nominal)变量。相反,那些存在顺序关系的(比如评级,评级5的会好于评级1的),则被称为 有序(ordinal)变量。将类别特征表示为数...

2016-03-31 22:42:29

阅读数:1951

评论数:0

机器学习基础(三十六)—— 非规整数据(值缺失、异常值)的处理

(1)非规整 (2)值缺失 (3)异常值(outlier) 一般来说,现实中的数据会存在信息不完整、数据点缺失和异常值的情况,理想情况下,我们会去尝试修复非规整数据,但很多数据集都源于一些难以重现(不可再现)的收集过程(比如网络活动数据和传感器数据),因此实际上很难修复。值缺失和异常值也很常见,且...

2016-03-31 21:53:06

阅读数:2803

评论数:0

Spark 基础 —— RDD(一)

Spark 为 RDD 提供的成员函数 (1).stats()序列的数字特征(stats:statistics),包括(count:计数,mean:均值,stdev:标准差,max:最大,min:最小值)

2016-03-31 19:06:37

阅读数:554

评论数:0

Python debug —— invalid literal for int() with base 10

异常出现的直接原因即是,对于一个浮点数的字符('1.4'),直接使用 int 进行强制类型转换:>>> int('1.5') ValueError: invalid literal for int() with base 10: '1.5' >>> int('1...

2016-03-31 18:31:50

阅读数:26332

评论数:0

实用的 Python 之 feedparser

feedparser 号称是一个 universal feed parser,使用它我们可轻松地实现从任何 RSS 或 Atom 订阅源得到标题、链接和文章的条目了。>>> import feedparser为了建立直观,首先来看一个标准的 item:<item> &...

2016-03-30 23:44:59

阅读数:6515

评论数:0

Python 基础 —— pip 的使用(修改国内源)

pip 自身的更新python -m pip install --upgrade pip

2016-03-30 22:05:55

阅读数:2788

评论数:0

机器学习基础(三十五)—— 协同过滤(从匹配用户到匹配商品)

考虑如下的用户对影片的打分,由嵌套字典定义:critics = {'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Sup...

2016-03-30 21:56:44

阅读数:616

评论数:0

机器学习基础(三十四)—— 协同过滤(之获得推荐)

为未被某人评分的电影的进行打分,我们当然可以查找品味与此人最为接近(依据相似性度量)的人的相应评分,但是这样做过于简单和随意(permissive)。这种做法的问题在于:我们会找到一个热衷某部电影的古怪评论者,而根据 topMatch 的结果,所有其他的评论者都不看好这部电影。也即将评分完完全全依...

2016-03-30 21:41:09

阅读数:381

评论数:0

机器学习基础(三十三)—— 皮尔逊相关度评价

除了欧几里得距离,还有一种更复杂一些的方法可以用来判断人们兴趣的相似度(相似一定发生在两个之间)。那就是皮尔逊相关系数,该相关系数是判断两组数据与某一直线拟合程度的一种度量。它在数据不是很规范(normalized)的时候(比如,某影评者对影片的评价总是相对于平均水平偏离很大时),会倾向于给出更好...

2016-03-30 11:46:02

阅读数:1036

评论数:0

使用 IDEA 创建 Scala 工程

(1)打开 IDEA[root@hadoop idea] ./bin/idea.sh (2)File ⇒ New ⇒ Project … ⇒ 选择 Scala填写工程名 选择 Scala-SDK(就是解压后的 Scala 文件夹) (3)File ⇒ Project Structure… ⇒ ...

2016-03-30 10:05:28

阅读数:6853

评论数:0

【剑指 offer】(十)—— 二进制形式 1 的个数

可能引起死循环的解法int numOf1(int n) { int cnt = 0; while (n) { if (n & 1) ++cnt; n >>= 1; } return ...

2016-03-29 21:54:08

阅读数:370

评论数:0

【剑指 offer】—— 为公司员工的年龄排序

快速排序虽然总体的平均效率是最好的,但也不是在任何时候都是最优的算法。比如数组本身已经是排好序了,而每一轮排序的时候都是以最后一个数字作为比较的标准,此时快速排序的效率只有 O(n2)O(n^2)。因此在这种场合快速排序就不是最优的选择。考虑如下的场景,如何以时间效率 O(n)O(n) 实现对公司...

2016-03-29 21:11:57

阅读数:679

评论数:0

【剑指 offer】—— 快速排序

两个辅助函数:// 生成区间内的随机整数 int RandInRange(int s, int e, unsigned seed=time_t(0)) { srand(seed); return rand()%(e-s)+s; }void Swap(int& a, int...

2016-03-29 20:33:38

阅读数:775

评论数:0

Trick(十六)—— 随机数的生成

最常见的一个随机数生成即为,生成 [start, end) 区间内的随机数:int RandInRange(int s, int e, unsigned seed=time_t(0)) { srand(seed); return rand() % (e - s) + s; }

2016-03-29 19:45:25

阅读数:362

评论数:0

哈希表(hash table)及其应用举例

哈希表最主要的有点在于我们利用它能够在 O(1)O(1) 时间查找某一元素,是效率最高的查找方式,其缺点是需要额外的空间实现哈希表。

2016-03-29 17:20:46

阅读数:519

评论数:0

【剑指offer】(七)—— 用两个栈实现队列

题目:用两个栈实现一个队列。队列的声明如下,请实现它的两个函数 appendTail 和 deleteHead,分别完成在队尾插入节点和在队列头部删除节点的操作。template<typename T> class CQueue { public: void appendTai...

2016-03-29 17:16:27

阅读数:344

评论数:0

机器学习基础(三十二) —— 使用 Apriori 算法进行关联分析

Apriori 在拉丁语中指“来自以前”。当定义问题时,通常会使用先验知识或者假设,这被称作“一个先验”(a priori)。在贝叶斯统计中,使用先验知识作为条件进行推断也很常见。先验知识可能来自领域知识、先前的一些测量结果。 从大规模数据集中寻找物品间的隐含关系被称作关联分析(associati...

2016-03-29 15:14:14

阅读数:597

评论数:0

机器学习基础(三十一)—— 岭回归(Ridge Regression)到 LASSO

如果数据集的特征比样本点还多(XN×d,d&gt;NX_{N\times d},d&gt; N)怎么办?是否还可以使用线性回归来做预测?答案是否定的,因为在计算 (XTX)−1(X^TX)^{-1} 的时候会出错。为了解决这个问题,统计学家引入了岭回归(ridge regressi...

2016-03-29 13:00:13

阅读数:5377

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭