数据挖掘
文章平均质量分 56
jimmee
这个作者很懒,什么都没留下…
展开
-
机器学习笔记(1)
机器学习包括的内容: 1. 监督学习:都是给定样本,判断另外一些样本 regression:回归问题,处理的是连续的值的情况 classification:分类问题,处理的是离散的问题 2. 学习理论 3. 无监督的学习 clustering:主要是处理聚类问题,从给定的数据集中找出一些结构 4. Reinforcement learning:强化学习 ...原创 2012-06-25 23:45:42 · 74 阅读 · 0 评论 -
数学在机器学习中的重要性(转载)
原始出处:http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!1911.entry Linear Algebra (线性代数) 和 Statistics (统计学) 是最重要和不可缺少的。这代表了Machine Learning中最主流的两大类方法的基础。一种是以研究函数和变换为重点的代数方法,比如Dimension redu...原创 2013-03-05 19:51:51 · 111 阅读 · 0 评论 -
整理一下准备编写的笔记目录
工作6年,主要从事分布式服务器端开发(3年),做过垂直爬虫和搜索以及数据挖掘(2年),1年的产品的业务开发,学习过和使用过的东西,陆续会写笔记,在整理的同时,算是一种经验积累的记录吧。 tcp通信过程中的一些重要事项,udt的原理和源码分析,参看 http://jimmee.iteye.com/admin/blogs/2037451 系列 图片处理 垂直爬虫的注意点 ht...原创 2013-12-31 21:21:15 · 204 阅读 · 0 评论 -
hive编写udf处理非utf-8数据
hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢? 方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如: public class CharsetConvertor extends GenericUDF { private transient StringObjectIn...原创 2014-01-23 12:40:12 · 905 阅读 · 0 评论 -
hadoop的mapreduce的join操作原理
1. 概述 如果我们有如下的两个文件: person.txt(字段是id, name,addressId): 1 tom 100 2 jme 101 3 kite 102 4 jack 100 5 tim 101 address.txt(字段是id,name): 100 ...原创 2014-01-23 16:23:39 · 539 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(1)
本系列是根据书籍《Data-Intensive Text Processing with MapReduce.pdf》和工作中的一些mapreduce使用做的笔记: 本篇针对《Data-Intensive Text Processing with MapReduce》第三章: 1. local aggregation(局部合并) IN-MAPPER COMBINING,也就是...原创 2014-01-27 17:15:56 · 317 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(2)
1. 反序(order inversion)模式 通过反序模式,我们可以控制中间结果进入reducer的顺序,从而在reducer中先计算出一些结果(根据先进入reducer的中间结果计算出),而这些结果对于高效处理后续的数据很有意义。要使用反序模式,需要先将算法中的操作序问题转化为一般排序问题。 以共现矩阵为例,要计算相对频率问题。 (1)strip...原创 2014-01-28 15:50:34 · 150 阅读 · 0 评论 -
大数据, 数据量大就牛逼么?
刚看了这篇博客 http://coolshell.cn/articles/10192.html 看完后, 觉得很有体会, 关于结论部分, 也补充一下自己的感受 综上所述,下面是我觉得数据挖掘或机器学习最重要的东西: 1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。 jimmee注: 是的, 不管数据量多大,...原创 2014-07-24 21:01:48 · 291 阅读 · 0 评论 -
智能应用中八个常见的误区
误区1:数据是可靠的 很多因素会导致你获取的数据不可靠。在考虑具体的智能算法解决方案之前,首先就要判断数据是否可信。如果数据有问题,就算是最聪明的人,通常也会得出错误的结论。 可能导致数据出错的原因有很多,在此不可能一一列举,下面列出了部分有代表性的可能导致数据出错的因素: · 在开发过程中所使用的数据不能代表产品环境中的数据。例如,对某个社交网络中的用户按身高分类“高”、“一般”和“...原创 2014-04-17 21:49:44 · 134 阅读 · 0 评论