- 博客(7)
- 问答 (1)
- 收藏
- 关注
原创 [Spark]Spark与Anaconda配置(Python)
对于Python开发者来说,使用Anaconda是很爽的。linux安装好后,如何在pyspark中也可以使用Anaconda呢?这里笔者研读了下pyspark的脚本,这里给出解决方案。安装Anaconda后,需要配置下bash_profile文件。export PYSPARK_PYTHON=/home/peiwen/anaconda2/binexport IPYTHON="1"
2016-03-24 16:13:54 12119 2
原创 [数据库]数据库基础知识复习
DQLDMLDDLDCL数据查询语言DQL数据操纵语言DML数据定义语言DDL数据控制语言DCL数据库中的五大约束数据库范式1NF2NF3NFBCNF存储过程存储过程的好处写在前:最近在准备找实习,在复习之前学习过的数据库知识,特写此博文总结之。DQL、DML、DDL、DCLSQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML, 数据定义语言DDL,数据控制语言D
2016-03-21 12:57:07 646
原创 [杂记]国内某知名电商数据研发面试题
面的国内知名的互联网公司数据岗,下面是面试内容: (1)首先自我介绍。 先介绍了下自己的教育背景,后来说研究方向,最近做的项目(这里我说我之前做过一个数据挖掘的项目)。 (2)你说你本科是数学系的,是那种和计算机相关的数学系专业队吗?介绍下你本科学过的科目。 是的。。。简单了说了下,本科学过啥(图论啊,密码学啊,数值计算啊,。什么数学分析高等代数忘记说了,囧囧囧)。 (3)你有用过什么开源
2016-03-15 09:55:22 1340
原创 [聚类算法]K-means优缺点及其改进
写在前:本文参考了国内一些硕士论文以及一些期刊。笔者会在后面写上具体的参考文献。仅供学习,请勿抄袭。K-means聚类小述大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择;
2016-03-14 11:05:06 46611 4
原创 [图论]用Edmonds-Karp算法求解最大流问题(C语言实现)
Edmonds-Karp是求解最大流的一种算法,其他还有Ford-Fulkerson算法,这个算法在《算法导论》中有详细的介绍。下面我们来探讨下Edmonds-Karp算法。 Edmonds-Karp算法是利用一种动态规划的思想的算法。其主要用来解决下面这种最大流问题。下面给出其具体的算法描述。 。 其时间复杂度与选取的最短路径算法有直接的关系,它的复杂度为O(VE^2)(笔者不会证明这个结论
2016-03-07 21:16:34 4278
原创 [Linux]常用Linux命令小结(持续更新中)
pbcopy命令cat命令locate命令find命令grep命令tar命令sed命令关机命令awk编程记录和域的概念常用使用对于ls,cd等太过于基础的命令,本文不将进行介绍。pbcopy命令复制到粘贴板中。 在进行SSH的时候,需要拷贝公钥,这里Linux有个命令,大家可以试试, pbcopy < ~/.ssh/id_rsa.pub该命令也同样适用于拷贝文件。cat命
2016-03-05 15:35:07 660
原创 [运筹学]关于动态规划的2个问题-最长公共子序列与最长非降子序列问题
最近在准备面试的时候,发现了动态规划一类的问题,感觉很有意思。简单叙述下什么是动态规划。动态规划 (下面部分概念参考自:百度百科) 把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解,创立了解决这类过程优化问题的新方法。对于动态规划问题的一些理解(个人看法,可能有误): 大多数动态规划问题都可以用蛮力法或者递归(深度搜索)的思路来解决,但是用动态规划就好了很多;一个很
2016-03-03 23:09:44 1087
空空如也
linux 正则表达式问题
2015-10-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人