- 博客(12)
- 收藏
- 关注
原创 Spark性能优化实操经验
Spark调优经验编程部分环境创建IDE中可以通过如下方式创建Spark的上下文,其中master指定了上下文环境,一版在开发或是测试时,指定为local或者local[*]即可,这两种方法都是以本地运行Spark程序,前者代表单线程运行,后者代表多线程运行,如果想要指定具体的线程数量,可以指定为local[4],如果不进行指定,则默认等于机器核数(比如8核CPU那就是8线程)。在本地运行较大文件时,尽可能不使用local[*],而是使用显式地指定核数,因为如果将所有线程都用于worker计算,可能
2020-05-25 22:17:16 415
原创 Maven项目同时包含Spark和Springboot时导致Log4j与Logback依赖冲突问题解决
当maven项目同时包含Spark和Springboot时,直接运行@SpringBootApplication类会报错,报错信息类似于Exception in thread "main" java.lang.IllegalArgumentException: LoggerFactory is not a Logback LoggerContext but Logback is on the classpath. Either remove Logback or the competing imple
2020-05-19 19:52:29 2106
原创 九行代码自动下载instagram原图
现在比较不错的Instagram图片下载软件有InstaSave,也有一些微信公众号如instome。不过它们要么是界面一堆广告要么就是要收费。我简单看了一下instagram的请求和页面脚本,比想象的简单的多,没有什么加密措施。以下是python实现代码:import requestsimport reimport uuid//url: instagram复制地址;toFold...
2019-10-12 17:59:17 5008 5
原创 基于贝叶斯公式的拼音输入法二元模型实现
和英语的直接输入不同,汉语输入法是通过拼音转译输入,而由于不同的拼音可以对应同一个字,而不同的字也可能存在多个拼音,是一个多对多的关系,因此在获得拼音的时候,需要能够准确地将其转换为正确的汉字,这就是拼音输入法的作用。本文介绍了一种基于贝叶斯公式的全拼拼音输入法实现,全拼也就是输入完整的拼音,不考虑缩写等情况。以下是一段拼音:huan ying guan zhu wo de bo ke...
2018-11-08 21:01:51 3809
转载 机器学习之概述
基本术语数据集(data set):数据的集合 示例(instance)/样本(sample):对数据集中一个事件或对象的描述 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项 属性值(attribute value):属性上的取值 属性空间(attribute space)/样本空间(sample space)/输入空间:属性长成的空间 ...
2018-09-18 14:40:21 205
原创 人工智能(一)
人工智能发展四个阶段初期阶段机器翻译 博弈 通用问题求解(GPS)认为利用计算机的运算能力可以解决一切问题,太过于理想化。智能系统必须有知识才能够实用。知识时代专家系统:将某一个行业的知识提取总结出来,让计算机使用,从而解决该领域的问题 知识工程:建造大型知识库,来解决问题,如何让计算机使用问题 知识表示问题:知识获取的瓶颈问题?例如:如何骑自行车?有些知...
2018-09-17 17:55:18 639
原创 从深度学习到LSTM
LSTM(Long Short-term Memory,长短期记忆网络)是一种用于处理序列数据的神经网络模型。它可以被应用于语言模型、机器翻译、图片标注、音乐自动化生成等等,在深度学习与大数据中有着不可或缺的地位。深度学习(Deep Learning)为什么我们需要深度学习随着数据量的爆炸式增长以及计算机性能的提升,传统的神经网络因为其自身的局限性限制了它们进一步提升效率与性能从而...
2018-09-08 20:05:06 9396 1
原创 基于多核的并行编程
概述摩尔定律当价格不变时,集成电路上课容纳的晶体管数目,约每隔18个月便会增加一倍。第一章并行与并发并行(Concurrency):two or more progress are in progress at the same time. 当系统有一个以上CPU时,则线程的操作有可能非并发,当一个CPU执行一个线程时,另一个CPU可以执行另一个线程,两个线程互不抢占CP
2018-09-08 17:53:36 7357 1
原创 Freeline体验
简介对于Android开发者来说,当Android项目开发到一定规模的时候,每次对项目进行修改之后的重新编译都仿佛是一场噩梦,其编译并重新部署的速度简直令人发指(虽然博主尚且没有开发过大型Android项目所以也没有这样的惨痛的经历,但就个人开发体验来说,每次修改代码后等待重新编译、部署、运行这一过程也是非常糟糕的体验)。而Freeline便是针对这一问题的福音。
2017-06-11 18:41:57 342 1
原创 Android权限源码及流程解析
简介在Android应用开发过程中,经常会向用户申请获得手机的一些权限,以提升应用的交互友好性(如通讯录权限),有时候这些权限甚至是必不可少的(如连接网络等)。本篇博客就将对Android应用开发中的权限管理进行一定的探究与分析。
2017-06-08 21:26:18 1257
原创 Microsoft牛津计划——文本分析
综述众所周知,Microsoft发起了一项牛津计划,该计划旨在为开发者提供一系列非常完善的API服务,涵盖范围包括影像、语音、语言、知识、搜索及实验室。开发者通过调用这些API,即可将这些功能应用到自己开发的应用上,可以说这一系列的服务大大简化了各个小型开发团队的工作。本博客中,我挑选了Microsoft api中的文本分析(Text Analytics)API,对其各个功能的调用方法进行了研究。
2017-05-24 13:59:11 424
原创 Windows 10通过Hexo在Github快速搭建个人博客
网上关于很多如何搭建个人博客的教程很多,但实际操作起来总是碰到了形形色色的问题,因此大叔就借以个人第一次搭建博客的经历写此教程,希望可以帮助到更多想要展现自己、追求技术的小白们。
2016-08-31 22:08:57 385
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人