- 博客(10)
- 资源 (1)
- 收藏
- 关注
转载 分析的一般步骤浓缩精华版
一、数据第一步:数据准备:(70%时间)获取数据(爬虫,数据仓库)验证数据数据清理(缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集)使用python进行文件读取csv或者txt便于操作数据文件(I/O和文件串的处理,逗号分隔)抽样(大数据时。关键是随机)存储和归档第二步:数据观察(发现规律和隐藏的关联)单一变量:点图、抖动
2016-05-19 17:31:44 674
转载 数据化运营需要的四个层次
数据的重要性已经被越来越多的公司、个人所熟知与接受,甚至于有过犹不及之势头。大数据的概念满天飞,似乎一夜之间人人都在谈论大数据,见了面不用大数据打招呼,好像就不是在数据圈子里混的了。那么,被外界传得神乎其神的数据,到底可以在哪些方面促进业务的腾飞?或者换种说法,业务对数据有哪些层次的需求?数据在哪些地方能够帮助业务? 结合笔者多年的工作经验以及对数据与业务的理解,业务对数据的需求归
2016-05-19 17:26:39 10168
转载 R语言十二本书
原文:http://www.r-bloggers.com/lang/chinese/1224以前人的烦恼是没有书可读,现在人的烦恼是书太多了。关于R语言的书已经出版很多了,博主大约读过其中的四十多本,但是书在精,而不在多,学在透,而不在速。把有限的时间放到无限的书海中,这不是阅读的真意。本着造福学习者的角度,博主精选出十二本R书。什么是好书的标准?我以为是:有案例,有代码,有习题,有讲解,逻辑
2014-03-21 15:24:48 1233
原创 互联网为什么会产生寡头
BAT三大互联网巨头,基本上垄断了中国的互联网。不仅在中国,美国的互联网也是由几个巨头所控制,出奇地相似。为什么互联这样一个高度开头,高度竞争的环境,会出现寡头?
2014-03-17 23:29:16 3197
原创 几种常见距离算法小结
总结数据挖掘常用到的距离算法,以及应用场景。包括欧拉距离、Pearson距离、杰卡德距离、余弦距离、曼哈顿距离、汉明距离、马氏距离、切比雪夫距离。
2014-03-17 22:52:36 11240
原创 浅谈数字签名
数字签名利用的是非对称加密算法的特点,例如A拥有密钥,B拥有公钥,A要写一张欠条给B:1. 密钥加密只有公钥才能解密A使用密钥对文件进行加密的过程就叫数字签名。B拿到文件后,因为只有A的密钥才能加密,因此不能对文件内容进行修改,这叫防篡改。A把文件发给B以后,B就可以证明该文件确实是A给的,这叫防抵赖。2. 公钥加密只有密钥才能解密B为了证明确实A是本人,于是把一文件用
2014-02-22 23:41:01 865
原创 求n!尾部包含0的个数
<br /> 题目: 对任意输入的正整数N,编写C程序求N!的尾部连续0的个数,并指出计算复杂度。如:18!=6402373705728000,尾部连续0的个数是3。 (不用考虑数值超出计算机整数界限的问题) <br /> <br />先考虑一种简单的情况, x * y 的尾部有几个0?<br />一个简单的方法就是先求出z=x*y的值, 再去查探z尾部有多少个0. <br />但是如果x * y的值很大, 导致z溢出呢?<br />把x分解为(x1 * x2 *x3 * x4 ... xn), y分解
2010-10-23 13:20:00 1289
原创 求数组中第K个大小的数
<br />百度的一道笔试题目, 如下:<br /> 写一段程序,找出数组中第k大小的数,输出数所在的位置。例如{2,4,3,4,7}中,第一大的数是7,位置在4。第二大、第三大的数都是4,位置在1、3随便输出哪一个均可。<br />函数接口为:int find_orderk(const int* narry,const int n,const int k)<br /> 一个简单的解法是先用快排把数组进行排序, 然后再找出第K大的数. 时间复杂度为O(nlog(n))<b
2010-10-23 08:42:00 1613
转载 最大子矩阵问题
<br />http://www.cnblogs.com/fll/archive/2008/05/17/1201543.html<br /> <br />最大子矩阵问题:<br />问题描述:(具体见http://acm.pku.edu.cn/JudgeOnline/showproblem?problem_id=1050)<br /> 给定一个n*n(0<n<=100)的矩阵,请找到此矩阵的一个子矩阵,并且此子矩阵的各个元素的和最大,输出这个最大的值。<br />Example:<br
2010-10-21 11:21:00 609
转载 从给定的文本中,查找其中最长的重复子字符串的问题
<br />原文地址 http://dev.firnow.com/course/3_program/c++/cppjs/2008324/106118.html<br />对于类似从给定的文本中,查找其中最长的重复子字符串的问题,可以采用“后缀数组”来高效地完成此任务。后缀数组使用文本本身和n个附加指针(与文本数组相应的指针数组)来表示输入文本中的n个字符的每个子字符串。<br /> 首先,如果输入字符串存储在c[0..n-1]中,那么就可以使用类似于下面的代码比较每对子字符串:<br />
2010-10-15 01:32:00 807
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人