自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

转载 数据实践过程中理论总结

写在前面(常规啰嗦)  拖拖拉拉新的一年已经过去一个月,今天3月6号。月底离职去平安,想来已经在这家公司呆了整整两年,对比两年前的我工程上确实大有长进,理论方面好像并没有得到很好的拓展,希望下一家能够得到比较好的历练。23岁,一个也算是比较尴尬的年纪,青春是很容易混过去的,尤其是工作以后,于是想继续深造读书,考了几次也实在是分数丢人哈哈,或许是不应该执拗在中科院这一个学校,再接再厉,...

2019-03-07 14:56:00 312

转载 flink-vs.-spark

这段时间,开始学习Flink,并了解了Spark与Flink的区别,开始觉得Flink大有取代Spark的趋势啊,实时流始终目前是Spark的瓶颈呀,下面来一张对比图:图片来源于:https://jobs.zalando.com/tech/blog/apache-showdown-flink-vs.-spark/后续会继续更新Flink的学习资料转载于:https://w...

2019-01-24 19:26:00 150

转载 Spark入门——什么是Hadoop,为什么是Spark?

  #Spark入门#这个系列课程,是综合于我从2017年3月分到今年7月份为止学习并使用Spark的使用心得感悟,暂定于每周更新,以后可能会上传讲课视频和PPT,目前先在博客园把稿子打好。注意:这只是一个草稿,里面关于知识的误解还请各大网友监督,我们互相进步。总而言之,网络上的知识学会断舍离,学会带着辩证的眼光去学习就能进步。  谈到Spark,实际上从16年本科实习的时候就已经开...

2018-07-19 15:08:00 238

转载 图论基础之Dijkstra算法的初探

图论,顾名思义就是有图有论。图:由点“Vertex”和边“Edge ”组成,且图分为有向图和无向图(本文讨论有向图),之前做毕业设计的时候研究“多谱流形聚类算法”的时候有研究“Graph”。高维数据的聚类就涉及到Graph Cut算法,想象数据为欧式空间的点,数据与数据之间呈现这样或那样的联系,数据就是点,他们的联系由边来决定。PS:本次学习与聚类算法无关,聚...

2017-07-08 18:10:00 150

转载 spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

  虽说,spark我也不陌生,之前一直用python跑的spark,基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作,即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象,然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用cr...

2017-05-03 20:01:00 104

转载 the first blog in 2017——《论作为程序员的我考研》

  怎么说,人总是有了压力才有动力。想来如今已经是2017年2月13日,2017年已经使用了43天,距离成绩出来还有3天。这个过年是最不充实的一个年,也是时间长达一个月久的“寒假”,因为“考研”。至于考到哪里也不再重要了,重要的是它在我心里已经是“失败”。但是这半年,从做完毕设的那一刻起我就决定考研,是为自己python程序员以及hadoop数据分析(涉世未深,不敢称之为大数据数据挖掘)...

2017-02-13 12:49:00 114

转载 流形学习之等距特征映射(Isomap)

  感觉是有很久没有回到博客园,发现自己辛苦写的博客都被别人不加转载的复制粘贴过去真的心塞,不过乐观如我,说明做了一点点东西,不至于太蠢,能帮人最好。回校做毕设,专心研究多流形学习方法,生出了考研的决心。话不多说,看论文带大家走入Joshua B. Tenenbaum的Isomap的世界!  大数据时代的人总是那么的浮躁不安,高维并不可怕,事实的本质总是简单而单调的,因此流形学习理念...

2016-05-10 20:01:00 206

转载 java实战之解析xml

  在java中解析xml有现成的包提供方法,常用的有四类:Dom,JDom,Sax以及Dom4j。其中前者是java中自带的,后三者需要大家从开源诸如sourceforge这样的网站下载jar包,然后在eclipse中“build path”加载外来的jar文件就行。各自的入门demo可以观看官网文档,听说文档有点晦涩难懂,可以多多google之,园子里有的是资源。接下来主要讲的是如何...

2016-03-11 15:11:00 170

转载 hadoop家族之pig入门

  昨天成功运行第一个在hadoop集群上面的python版本的wordcount,今天白天继续看网上提供的文档。下午上头给定的回复是把hadoop家族都熟悉一下,那就恭敬不如从命,开始学习pig吧~  这一年多的编程之路让我知道学习任何一门新的技术的最入门的方式就看文档,let's geting started!  首先声明一下我的环境是在公司布置好的集群上面运行的程序,因此各...

2016-01-26 20:41:00 701

转载 让python在hadoop上跑起来

  duang~好久没有更新博客啦,原因很简单,实习啦~好吧,我过来这边上班表示觉得自己简直弱爆了。第一周,配置环境;第二周,将数据可视化,包括学习了excel2013的一些高大上的技能,例如数据透视表和mappower绘制3d地图,当然本来打算是在tkinter里面运用matplotlib制作一个交互式的图表界面,然而,画出来的图简直不是excel2013能比的,由于对界面和matpl...

2016-01-25 20:11:00 118

转载 谱多流形聚类SMMC

  今天是2015年的最后一天,决定尽量乘着这三天休息把毕设主题的博客给更完,今天写smmc的算法,接下来三天会对前面的三个算法kmeans、SC以及smmc应用在今年的研究生建模提供的数据中进行matlab实现从而进行效果对比,还有一件高兴的事情是进入沪江三年多了,第一次被cctalk里面的老师抱上麦进行真正意义上的英文对话,搞得都想转行去魔都发展英文了。哈哈,言归正传,进入学术世界吧...

2015-12-31 16:44:00 745

转载 大数据下多流形聚类分析之谱聚类SC

  大数据,人人都说大数据;类似于人人都知道黄晓明跟AB结婚一样,那么什么是大数据?对不起,作为一个本科还没毕业的小白实在是无法回答这个问题。我只知道目前研究的是高维,分布在n远远大于2的欧式空间的数据如何聚类。今年的研究生数模中用大数据引出了一个国内还不怎么火热的概念——多流形结构。题目中那个给出的流形概念:流形是局部具有欧氏空间性质的空间,欧氏空间就是流形最简单的实例。从而在2000...

2015-12-04 22:26:00 820

转载 【译】聚类分析

  前言:这两天着手做毕设,在今年的研究生数学建模的基础上研究“大数据下多流形聚类分析”问题,导师要求我这周把每一个算法的实现对比一下效果展示给他看,表示今天google的搜索结果中没有找到诸如SSC的函数教程,又养成了不copy代码的习惯,那就自己从头开始学呗,刚好mathworks上面提供一篇详细的聚类分析的教程,特此翻译一下,希望自己和读者都能更好的咬文嚼字,以作为未来几天高维度数...

2015-11-28 16:17:00 385

转载 机器学习《回归 二》

依旧是唠叨一下:考完试了,该去实习的朋友都去实习了。这几天最主要的事情应该是把win10滚回到win7了,真的还是熟悉的画面,心情好了很多。可惜自己当初安装的好多软件都写入了注册表导致软件用不了,好处就是重新清理了一下电脑,顺便把虚拟机重新安装了一下,现在正在备份系统。是的,一定要备份,重要数据不要保存在C盘,安装软件不要安装在C盘,与空间无关,数据才是重点!win7比较稳定,可以懒得备...

2015-11-22 22:01:00 87

转载 python网络编程学习《一》

最近,刚实习完,很喜欢实验楼,但是自己的方向仍然不能确定,自己觉得可选择的空间很大,尽管已经是大四的人了,想到别人都在忙着买职业装,买高跟鞋面试,学习化妆什么的,看看自己,反而开始慢慢关注运动,食疗以及护肤了,哈哈,程序员就是酱紫,身体是革命的本钱。现在的方向至少是确定了,数据分析,但是图像处理这个项目既然当初选择当负责人,现在也要负责啊;那么目前学习网络编程,也是因为学长希望在“win...

2015-11-19 10:28:00 178

转载 小甲鱼第52讲:像极客一样去思考

以下代码打印什么内容?0. [code]>>> def func(): pass>>> print(type(func()))[/code]当然是打印函数的类型,由于什么都没有返回,也就是”NoneType“1.[code]>>> print(type(1J))[/code]排除法,没有u开题,所以不是”unicode“,不...

2015-11-16 16:47:00 191

转载 小甲鱼第51讲:《__name__="__main__"、搜索路径和包》课后练习题

测试题:0. __name__属性指的是在调用该模块的时候调用的函数名称,方便在模块的被调用的时候,模块内部被调用的函数不会被运行。1. 当模块作为主程序运行的时候,__name__属性的值是“__main__”,当该模块被调用导入到另一个模块的时候,"__name__"属性值为模块名称。2. 通过sys模块的path变量显示搜索路径:1 import sys2 ...

2015-11-16 09:59:00 133

转载 python机器学习《回归 一》

唠嗑唠嗑 依旧是每一次随便讲两句生活小事。表示最近有点懒,可能是快要考试的原因,外加这两天都有笔试和各种面试,让心情变得没那么安静的敲代码,没那么安静的学习算法。搞得第一次和技术总监聊天的时候都不太懂装饰器这个东东,甚至不知道函数式编程是啥;昨天跟另外一个经理聊天的时候也是没能把自己学习的算法很好的表达出来,真是饱暖思**啊。额,好像用词不当,反正就是人的脑袋除了想着吃肉还要多运动...

2015-11-09 22:48:00 124

转载 python机器学习《入门》

写在前面的废话: 好吧,不得不说鱼C的markdown文本编辑器挺不错的,功能齐全。再次感谢小甲鱼哥哥的python视频让我去年大三下学期的时候入门了编程,爱上了编程这门语言,由于是偏冷门的统计学,在实习以后就决定把方向放在数据挖掘方面了,越来越发现专业课的重要性。在大家都忙着参加各种培训的日子里面,我就在去年寒冷的冬天把甲鱼哥的python视频一字不落的看完了;现在,在别人拼命参加...

2015-11-07 19:00:00 137

转载 关于面试和笔试

很显然,中兴的面试失败,cvte的笔试必定也是一场空,但是心里是非常清楚原因的。中兴面试失败的原因是,我面试的数据分析岗位,我当时对数据分析的算法并不熟练,说话也就优点空;cvte刚刚结束,刚把代码写出来,然而调试成功的那一刻系统自动把我的答卷提交了,用python写的代码很短也很简单,却是花费我半个小时来纠结设计,也是半个月没敲代码了,一些函数都忘记了。最重要的是我面试web后...

2015-10-11 20:45:00 98

转载 图像修复项目《问题一》

首先,我们项目研究的时关于图像修复的快速算法,当然是基于前人基础的提出改进的算法。现在研究的一篇论文是Mingqiang Zhu的一篇论文《An Efficient Primal-Dual Hybrid GradientAlgorithm For Total Variation Image Restoration》,因此本系列的项目都是围绕这篇论文展开的。这篇论文主要研究的是原始...

2015-09-18 21:53:00 380

转载 pythonchallenge(二)

PythonChallenge_2一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. Firefox:...

2015-08-14 17:14:00 124

转载 pythonchallenge(三)

PythonChallenge_3一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. Firefox:浏览器,...

2015-08-14 17:13:00 66

转载 pythonchallenge(一)

PythonChallenge_1一、实验说明下述介绍为实验楼默认环境,如果您使用的是定制环境,请修改成您自己的环境介绍。1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:1. LX终端(LXTerminal): Linux命令...

2015-08-11 13:56:00 125

转载 [译]Python编写虚拟解释器

使用Python编写虚拟机解释器一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal):Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用...

2015-07-28 17:29:00 312

转载 [译]用R语言做挖掘数据《七》

时间序列与数据挖掘一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考...

2015-07-18 13:01:00 324

转载 [译]用R语言做挖掘数据《六》

异常值检测一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[V...

2015-07-18 12:01:00 145

转载 [译]用R语言做挖掘数据《五》

介绍一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vim编辑...

2015-07-18 11:37:00 131

转载 [译]用R语言做挖掘数据《四》

回归一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑...

2015-07-18 11:10:00 88

转载 [译]用R语言做挖掘数据《三》

决策树和随机森林一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程...

2015-07-18 10:36:00 113

转载 [译]用R语言做挖掘数据《二》

数据探索一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vi...

2015-07-17 16:21:00 142

转载 [译]用R语言做挖掘数据《一》

介绍一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器...

2015-07-17 14:58:00 150

转载 ubuntu上安装R的时候遇到的问题总结

首先感谢这两篇博客的指导,第一篇是关于报错的总结,第二篇是第一篇中没有提到的错误,也就是我在安装的时候出现的错误。1、下载R包(去官网选择一个离你最近的镜像网址,我的是清华提供的镜像下载速度比较快)wget http://mirrors.tuna.tsinghua.edu.cn/src/base/R-3/R-3.0.1.tar.gztar -zvxf R-3.0.1.ta...

2015-07-10 12:02:00 1258

转载 玩转树莓派《三》——Scratch

  今天大姨妈折磨了一整个白天,稍微好点,现在打开实验楼,看到有个朋友回答了关于ubuntu上面操作SQL 的时候到处数据到txt文件,被批评没有思考问题,或许吧,虽然那个权限我现在想起确实是可读可写的,但是他的一句是否认真思考自己遇到的问题这件事情本身是没有错的,不是急于求成而要追踪本质,怪不得在某一些测试上面我连编程入门的都没有,突然觉得自己的路还有好长好长,而现在的我却企图安于现在...

2015-06-29 13:26:00 964

转载 玩转树莓派《二》——用python实现动画与多媒体

环境:树莓派,系统raspbian,系统自带两个版本的python以及pygame。1、画板程序如下: 1 !/home/pi/game_1.py 2 import pygame 3 4 width = 640 5 height = 480 6 radius = 100 7 fill = 1 8 9 pygame.init() #初始...

2015-06-27 17:49:00 179

转载 pygame(一)

  昨天,是有在树莓派上面操作pygame的,但是树莓派又上不了网了,很奇怪,我的306wifi显示的是树莓派连接成功,但是就是无法用网络,所以就下载不了图片,坐等HDMI线吧。  现在,看小甲鱼的视频已经有半年了,感谢他风趣无节操的语言带领我进入广大的编程世界,我知道接下来的路只能自己走下去,唯有谦虚向别人请教,积极谷歌,及时总结,锻炼代码能力,钻下去才能走得远,感谢小甲鱼。最近刚...

2015-06-24 17:57:00 132

转载 玩转树莓派(一)

  因为之前有玩过两天树莓派,一直无法解决上网问题,那么这次单独花一周时间入手树莓派的python搭建路由器。  材料:已经预装好raspbian系统的树莓派一只,网线一条,已经连接好无线网的笔记本一个,树莓派的标配电源器和数据线一根  树莓派的网线接口与笔记本的网线接口用一根网线连接,树莓派上用电源线连接好电源,网线端口的黄色指示灯一闪一闪,电源的红色灯亮了即连接无故障。一...

2015-06-15 18:39:00 114

转载 pythonchallenge(七)

  转眼间又一个月没有逛博客园,明显的感觉到自己的代码能力变弱,前两周搞项目去了,只是形式上面的答辩而已,并没有涉及到代码层面,也就玩了一下验证码,没有识别玩出校器网页的验证码;转眼间又是各种考试,所幸,考试进入尾声,今天可以玩玩pythonchanllenge,一周没继续闯关,明显感觉到自己的智商余额不足,直接上题:http://www.pythonchallenge.com/pc...

2015-06-13 18:00:00 224

转载 C《二》

开始阅读谭浩强的C语言程序设计。编译一个程序,除了语法以外,还需要管理内存,就是数据结构,学习如何高效的利用内存;数据关系的处理。例如学生管理系统的开发,但是数据关系是有最优解的,也就是可以学会的,因此学习主线就是沿着C语言的设计主线来推理C。接着对上次1+1的程序的探索,int i,j,k都是CPU写入内存,CPU由两部分组成,一个是自己的内存,一个是自己的逻辑处理问题的结构。...

2015-05-11 23:16:00 92

转载 跟着Nisy一起学习C语言

编辑器是使用环境turboc的IDE,使用dos窗口中的edit作为编辑器,有点类似于vim;使用的是xp-sp3的虚拟机上的系统。Nisy说要有两种语言,脚本语言以及一个底层语言,比如现在我的python和正在学习的C。目前的状态就是两个都不精。讲完C语言的学习模式以及编程的工作模式以及内存以及1+1的重要性后,开始使用edit编辑器学习语法,以及实现第一个程序1+1=?1...

2015-05-10 23:06:00 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除