- 博客(17)
- 资源 (23)
- 收藏
- 关注
原创 大数据处理之道(十分钟学会Python)
一:python 简介(1)Python的由来Python(英语发音:/ˈpaɪθən/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情
2014-12-19 11:15:04 12638 9
原创 走,是一辈子,不走,也是一辈子(程序猿之路)
一:起因(0)突然有一天有人问我:你当初为什么选择计算机专业?为什么你选择计算机行业?选择计算机行业为什么选择做程序猿?我没有回答~~~因为我不知道该怎么回答。(下图只能从侧面回答)(1)当你穿梭在五颜六色的人群中,会感觉到时光的流逝;当你翘首在十字路口时,面对的是选择;(2)从高中升入大学(填报志愿),这是一次小却影响深刻的选择;从大学到研究生(就业与否),这
2014-12-12 14:29:24 7592 28
原创 final 和 finally你知道多少?
一:java 里面的 final 类型修饰符(0)finally 虽然在英语语法上是final的adv.形式,两者非常相似,但是java的应用环境却大不相同的。(1)final类final类不能被继承,因此final类的成员方法没有机会被覆盖,默认都是final的。在设计类时候,如果这个类不需要有子类,类的实现细节不允许改变,并且确信这个类不会再被扩展,那么就设计为final类。
2014-12-31 17:34:35 2010 4
原创 java 那些鲜为人知的序列化(debug)
一:起因Java提供一种机制叫做序列化,其实就是把实体类的对象(Bean对象)以二进制的形式就行存储和传输(读取),多有需要序列化的对象对应的类需要继承 接口 Serializable。(1)通过有序的格式或者字节序列持久化java对象,其中包含对象的数据,还有对象的类型,和保存在对象中的数据类型。所以,如果我们已经序列化了一个对象,那么它可以被读取并通过对象的类型和其他信
2014-12-30 15:51:39 1273 2
原创 java 那些鲜为人知的保留字
一:Java中的instanceof关键字(1)定义:instanceof是Java的一个二元操作符,和==,>,它的作用是测试它左边的对象是否是它右边的类的实例,返回boolean类型的数据。(2)示例: instanceof有一些用处。比如我们写了一个处理账单的系统,其中有这样三个类: public class Bill {//省略细节} public clas
2014-12-29 15:27:12 2416 5
原创 大数据处理之道 (Gibbs Sampling)
一:简介以及学习的途径(1)吉布斯采样(Gibbs Sampling)及相关算法 (学习向Gibbs sampling, EM, MCMC算法 等的好地方) 1) 推荐大家读Bishop的Pattern Recognition and Machine Learning,讲的很清楚,偏理论一些; 2) 读artificial Intelligence,2、3版
2014-12-27 20:59:07 4304 2
原创 大数据处理之道 (htmlparser 过滤器<二>)
一:起因(1)最近用于任务需要一直在爬取网页HTML的内容,与类似于爬虫的HtmlParser接触的比较多,爬取无非就是过滤自己想要的信息,因此Filter是核心,当然String类中的matches(regex)函数和contains(str)函数也是非常有用的(2)经常和爬虫打交道就会分析各式各样的网站设计以及布局:用的设计的非常有规律,如QQ空间,微博信息等爬取非常简单(当时要想翻页
2014-12-25 16:58:45 1968 3
原创 大数据处理之道 (htmlparser获取数据<一>)
一:简介(1)HTML Parser是一个用于解析Html的Java的库,可采用线性或嵌套两种方式。主要用于网页的转换或提取,他有一些特性:过滤器filter,遍历器visitors,通常的标签tagName和易用的JavaBeans。它是一个快速,健壮,并严格测试过的组件。(2)个人理解:HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果,各个节点代表HTML中的标签和
2014-12-24 11:12:52 2698 5
原创 大数据处理之道(预处理方法)
一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况重复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据高维度
2014-12-23 10:50:50 14647 2
原创 JavaWeb错误处理集锦
一:起因(1)自己接下来想走算法的路子,打算把十大算法和数学模型学习一下,算是给自己之前 JavaWeb 的一个总结;(2)记得Java算是第一个比较上手的语言了,更是用JavaWeb走过了很长的光阴,该给自己做一下小结了;(3)JavaWeb项目开发过程中的错误,总是反复出现,为了避免再次查找的不必要麻烦,在此总结一下。(4)JavaWeb编程一般性错误处理集锦
2014-12-21 11:28:40 2762 7
原创 大数据处理之道(实验方法<二>)
一:交叉验证(crossvalidation)(附实验的三种方法)方法简介 (1) 定义:交叉验证(Cross-validation)主要用于建模应用中,例如PCR(Principal Component Regression) 、PLS(Partial least squares regression)回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的
2014-12-18 11:38:26 2384 4
原创 大数据处理之道(实验方法篇<一>)
(1)做大数据处理,清洗数据结束后,就是现象分析,再建立Model模型,在验证自己模型的有效性(2)大数据试验验证模型有效性的指标:Accuracy(正确率);Precision(查准率或准确率);Recall(查全率或召回率);F1-MeasureTrue Positives, True Negatives, False Positives, False Negatives 下面分别
2014-12-17 17:18:49 2280 7
原创 程序猿为什么会淡忘?
(1)你是否有过这样的尴尬经历:明明昨天研究很熟悉的技术,今天却不能很好的领导讲解?(2)你是否有过这样的尴尬处境:明明之前做好的项目,过一段时间竟然把它统统忘记?(3)你是否有过这样的汗颜情景:自己非常熟悉的技术,突然一下子被一个爱刨根问题的”无招数的江湖小子“,给问的自己不知道如何回答?(4)你是否有过这样的纠结状况:明明记了N多次的算法,总是一次一次查看,再一次一次的忘去?(
2014-12-16 22:40:02 1318 2
原创 大数据处理之道 (MATLAB 篇(二))
一:起因(0)开始个人非常抵触MATLAB编程语言的,肯能是部分编程人员的通病 —— 学会c/c++或者java,就会鄙视其他的语言,懒得尝试其他语言。直到有一天……他发现,他或者她发现自己精通的这门语言实在是解决不了这个问题时,才做出改变。(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 ha
2014-12-14 19:51:37 10887
原创 大数据处理之道 (MATLAB 篇)
一:起因(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算(2)问题来了,面对海量的数据,如何从中挖掘实用的信息或者发现潜在的现象,可视化工具可能是必不可少的 ;(3)可视化工具可以说百度一大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出一种数学模型,对现实的现象
2014-12-13 22:46:25 5889
原创 走,是一辈子,不走,也是一辈子
一:起因(1)当你穿梭在五颜六色的人群中,会感觉到时光的流逝;当你翘首在十字路口时,面对的是选择;(2)从高中升入大学(填报志愿),这是一次小却影响深刻的选择;从大学到研究生(就业与否),这是人生的第二次艰难的选择;(3)云云众生,当选择降临在自己的身上时,总是一副踌躇满志,犹豫不决的心态,甚至是焦虑不安的状态。(4)后来我发现,选择是一种常态,是生活的一部分;你没做出一次选择,都
2014-12-09 11:05:58 1307 1
原创 c 语言里 类型转换那些事儿
一: 起因(1)最近接触了类型转换,例如有符号数转化为无符号数 ---- int 转化为 unsigned int类型,莫要想当然的转化;(2)弥补一下自己当初学习计算机组成原理时,原码、反码、补码就比较容易混淆的概念;(3)double类型的如何判断某一个参数是否为零,直接 == 0.0,,貌似可以 ---- 确实有时可以,但是有时却不可以,这是为什么?(4)知识补充:在int
2014-12-04 17:22:45 1954
IKAnalyzer2012_u6 和 jcseg-dict-all两款工具
2014-12-24
htmlparser解析Html的jar包和源文件包(两个)
2014-12-24
jxl解析Excel的jar包和源文件包(两个)
2014-12-24
ArcGIS_Editor_for_OSM_2_1_Desktop_Beta3
2014-11-26
数据结构(c++英文版)
2014-11-23
c++list类实现
2014-11-23
c++string类的实现
2014-11-23
数据挖掘导论完整版
2014-11-12
C++程序设计(谭浩强)
2014-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人