![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
大数据运维
大数据运维研发SRE
展开
-
SAS中实用函数
SAS博大精深,版主初涉此领域,经常遇到一些问题,需要Baidu搜索,为了防止遗忘,记录下来。关于日期时间SAS中的时间日期格式非常多,重要的函数有如下几种: Day函数:得到日期的天,例如:day(‘2016-09-01’d)=1; Month函数:得到日期的月份,例如:month(‘2016-09-01’d)=9; Year函数:得到日期的年份,例如:year(‘2016-09-原创 2016-11-29 10:42:08 · 7424 阅读 · 0 评论 -
Spark RDD/DataFrame map保存数据的两种方式
使用Spark RDD或DataFrame,有时需要在foreachPartition或foreachWith里面保存数据到本地或HDFS。直接保存数据当然如果不需要在map里面保存数据,那么针对RDD可以有如下方式val rdd = // target rddrdd.saveAsHadoopFile // add some parameters 针对DataFrame可以有如下方式保存数据val原创 2017-10-06 11:55:15 · 7623 阅读 · 0 评论 -
elasticsearch vs mongodb
选择Elasticsearch还是选择MongoDB,该问题我已经被许多初学者、朋友或需要作出技术架构决策的开发者问及好多次了。那么应该选择MongoDB,还是选择ElasticSearch呢?因此,这里我简短的介绍一下MongoDB与Elasticsearch的不同之处,且 言明在什么场景下那个作为首要选项。我假设读者已经了解了关于MongoDB/Elasticsearch的基本概念。 假设两翻译 2017-09-27 21:20:58 · 21119 阅读 · 0 评论 -
判断GPS省市/区县非API调用方法
判断一个GPS点是否位于某省市/区县内,通常可以调用地图API来解决,通过调用逆地理信息API,可以获得完整的地址信息,因此可以判断该GPS的省市/区县。本文基于省市/区县的隶属关系,及其形状的几何关系,判断一个GPS点的隶属信息。原理如何判断一个点是否位于某几何形状之内呢? 参考文献:判断一个点是否在多边形区域内判断根据中国各省/直辖市边界,以及省市包含二级行政划分的边界信息,以及三级区县划分的原创 2017-09-23 18:15:02 · 1603 阅读 · 0 评论 -
一种可行性Java爬虫框架
简单的Java爬虫框架流程图,不包括容灾机制、异常处理等内容。框架流程图 搭建分布式爬虫系统,框架的主要工作是打通队列、存储之间的联系。之后的工作,包括爬虫策略、容灾机制、错误处理等,都是通过爬虫节点来处理。 事实上,只要框架搭建好之后,不断完善本地爬虫策略【使用内存队列】,就能够很好的实现分布式爬虫。爬虫节点爬虫节点设计的主要内容,包括但不限于: 1. 爬虫深度; 2. 爬虫策略;原创 2017-09-23 17:45:16 · 767 阅读 · 0 评论 -
我与汽车之家的三生三世
说起爬虫,目前存在许多流行的爬虫框架。其中最著名的莫过于Python语言方面的Scrapy,Java语言方面的Webcollector。它们都是开源的爬虫工具,根据不同的使用场景、业务特点、开发人员的语言偏好,可以选择不同功能的开源框架。当然老司机,也可能自己开发一种爬虫功能框架,毕竟自己编写的才能够更好的配置、控制、使用爬虫,完成爬虫业务的需求。第一生初进入爬虫坑洞,感觉爬虫很难。刚开始,选择的是原创 2017-07-10 20:49:48 · 2775 阅读 · 0 评论 -
CIFAR-10的Matlab可视化与转化
进来研究dl4j-examples里面的相关实例,经常用到例如MNIST、CIFAR等二进制图像集合。原程序用到的是二进制文件格式的读取,而如果想要看到里面数值具体的含义,需要对二进制文件进行可视化。Matlab使用方便、编程简单,且无论在数值计算,还是在图像处理、模拟过程等方面都非常具有优势,缺点就是软件不开源、价格昂贵,因此滋生了如博主一样的广大盗版软件使用者_^_ 。Matlab基础1、导入原创 2017-01-06 22:22:21 · 6350 阅读 · 5 评论 -
简单Python爬取链接二手房信息
Python爬虫博主目前学习Python爬虫,主要从简单的代码入手,然后逐步理解爬虫的精髓,逐渐学习复杂的爬虫技术等内容。本文主要研究使用简单的线程、urllib、bs4.BeautifulSoup等爬去链家网站二手房信息。主要的原理在于链家网站具有比较简单的网页结构,同时也是静态网页;使用的手段,主要是通过网页之间的地址链接,不断获取房子详细页面的内容。主要用到的包本文主要使用以下package:原创 2017-01-05 21:04:56 · 2392 阅读 · 0 评论