bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

hive多行变一行

1.需求描述在数据处理过程中,我们不光要将一行变为多行,有时候还需要将多行变为一行。 有如下格式的数据: msgid appid 1490549504092 1002496 1490549504092 1002505 1490549504105 1005565 149054950410...

2017-03-31 17:38:17

阅读数 1993

评论数 0

python读取excel文件

0.前言windows里做数据工作的杀手锏是excel。而且对于大部分产品,运营的同学来说,excel是最常用的工具,甚至都没有之一。但是RD的工作环境大部分情况下都是基于linux系统,linux的世界里是不认识excel这种格式的东东的。所以,在服务器上将excel文件转化成我们需要的格式就显...

2017-03-30 17:05:08

阅读数 1706

评论数 1

java.io.IOException: Filesystem closed

1.问题描述往集群提交任务的时候,需要在hdfs上面读取一个资源文件。在读取该资源文件的时候,代码爆出如下异常:Error: java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOp...

2017-03-30 15:42:49

阅读数 5421

评论数 0

爬取豆瓣排名前100的电影

最近很多工作需要用到爬虫去爬取各种数据。本人也不是专业爬虫攻城狮,之前也没做过爬虫的相关工作。现在实际中遇到了要用,那就只好硬着头皮上吧。趁着周末稍微有点时间,网上找了找爬虫相关的资料与项目,然后参考其中某一个比较简单一些的,先上手实际搞一个练练手再说。1.爬虫的一般思路爬虫的基本想法就是以一个初...

2017-03-28 22:18:28

阅读数 4838

评论数 0

python format 格式化输出

0.前言在python2.7及以上的版本,str.format()的方式为格式化提供了非常大的便利。与之前的%型格式化字符串相比,他显得更为方便与优越。下面我们就来看看format的具体用法。1.常见的用法二话不说,首先上代码,看看format的一些常用方法。print "{:.2f}&...

2017-03-28 21:01:53

阅读数 8792

评论数 0

Git 基础 - 撤消操作

任何时候,你都有可能需要撤消刚才所做的某些操作。接下来,我们会介绍一些基本的撤消操作相关的命令。请注意,有些撤销操作是不可逆的,所以请务必谨慎小心,一旦失误,就有可能丢失部分工作成果。1.修改最后一次提交有时候我们提交完了才发现漏掉了几个文件没有加,或者提交信息写错了。想要撤消刚才的提交操作,可以...

2017-03-27 09:29:03

阅读数 497

评论数 0

Scrapy ImportError: No module named items

1.问题描述在执行scrapy crawl命令爬取数据的时候,代码报了以下错误:ImportError: No module named items但显然我们代码里面是有items这个类的。那问题出现在哪里呢? 求助万能的stack overflow,发现正好有谈到这个问题。2.问题产生原因简单...

2017-03-25 23:22:34

阅读数 6999

评论数 2

git revert 回滚代码至上一版本

项开发过程中,有时会需要将代码回滚至上一次提交或回滚到某一次提交。项目新版本上经后,如果不能正常运行,或遇到其它极端问题时,我们需要将代码回滚至上一个版本。通过git revert命令,可以实现代码的提交回滚。1.git revert命令介绍git revert作用是回滚已经存在提交。git re...

2017-03-24 18:14:34

阅读数 2097

评论数 0

一条拼了40min的hql引发的思考

周末加班,拼一条hql花了40min,里面有许多小细节,特别记录下来方便以后使用。1.表结构hive表里存的是个thrift结构。我们关注的主要字段如下:struct UploadDataItem { 1:optional string channel; 2:optional string dat...

2017-03-19 15:17:43

阅读数 1570

评论数 0

MapReduce操作Hbase史上最完整范例

Hbase里的数据量一般都小不了,因此MapReduce跟Hbase就成了天然的好搭档。本文中,本博主将给出最详细的用MR读取Hbase中数据的实例。1.ZK授权表首先一点来说,Hbase是强依赖于ZK的。博主所在的team,就经常出现ZK连接数太多被打爆然后Hbase挂了的情况。一般在访问Hba...

2017-03-14 20:50:26

阅读数 13981

评论数 2

自学资料总结(持续更新)

经常有一些比较好的资料不想错过。之前试过加入浏览器的收藏夹,时间稍微长点以后发现加入收藏夹不是一种特别好的方式。一则随着时间的推移,容易积累很多的链接,收藏夹会变得非常大非常臃肿。二则收藏夹大了以后,急需去查某个资料的时候会变得比较困难。三则收藏夹的功能毕竟有限,尤其注释说明起来不是很方便,毕竟好...

2017-03-12 19:48:30

阅读数 863

评论数 0

ETL调优的一些分享

原来链接地址:http://www.transwarp.cn/news/detail?id=173ETL是构建数据仓库的重要一环。通过该过程用户将所需数据提取出来,并按照已定义的模型导入数据仓库。由于ETL是建立数据仓库的必经过程,它的效率将影响整个数据仓库的构建,因此它的有效调优具有很高的重要性...

2017-03-11 22:14:14

阅读数 2458

评论数 0

Matplotlib 教程

原文链接地址:http://liam0205.me/2014/09/11/matplotlib-tutorial-zh-cn/ 1.介绍 Matplotlib 可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。这里将会探索 m...

2017-03-10 22:26:14

阅读数 1244

评论数 0

mac上TK Framework double implementation

在mac上实验matplotlib相关功能的时候,发现报以下错误:objc[5431]: Class TKApplication is implemented in both/Users/sykeoh/anaconda/lib/libtk8.5.dylib and /System/Library/...

2017-03-10 22:06:44

阅读数 643

评论数 0

异常点/离群点检测算法——LOF

原文链接地址:http://blog.csdn.net/wangyibo0201/article/details/51705966在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向,用于反作弊、伪基站、金融诈骗等领域。 异常...

2017-03-10 15:50:27

阅读数 6201

评论数 0

python中对象排序的两种方式

很多时候,我们是需要针对对象序列进行排序的,尤其是针对对象的某个属性排序的场景最为常见。以下就实验两种方法来满足这个需求。1.直接调用序列的sort方法class Person(object): def __init__(self,age,name): self.age = ...

2017-03-08 14:35:03

阅读数 5284

评论数 0

判断一个数是否为质数

1.质数的定义只要有小学毕业证的同学都知道质数是什么鬼。因为本人没有小学毕业证,特意记录一下质数的定义: 对于大于1的数,如果除了1和它本身,它不能再被其它正整数整除,那么我们说它是一个质数。2.判断是否为质数import mathdef isPrime(n): if n == 1: ...

2017-03-06 22:04:59

阅读数 3310

评论数 1

判断一个点是否在多边形区域内

在做LBS,POI相关项目时,经常需要判断一个点是否在某个区域中的问题。在实际场景中,这个区域肯定是没有任何规律的不规则形状。针对这种场景,搜索了几种对应的解法。重点是,最后给大家奉上能工作的源码!有需要的同学们千万不能错过。1.射线法,PNPoly算法本算法是由W. Randolph Frank...

2017-03-06 19:58:19

阅读数 5892

评论数 0

csdn中让图片居中

1.Problem在csdn中提供的markdown编辑器中,默认插入图片都是左对齐的。效果如下: 效果图: 2.Solution很多时候,我们希望将图片居中,这样看起来效果很好。 对于不怎么懂html,css的后端人员来说,怎么搞定这事。 一种行之有效的方式:在图片上面加入<...

2017-03-05 12:05:26

阅读数 2988

评论数 2

GeoHash核心原理解析

原文链接地址:http://www.cnblogs.com/LBSer/p/3310455.html引子  机机是个好动又好学的孩子,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天机机到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐。饭饱之后机...

2017-03-05 11:31:54

阅读数 514

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭