自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(232)
  • 资源 (4)
  • 收藏
  • 关注

原创 scala-边学边记(快学scala)

随机数import java.util.Randomval rand = new Random()val x = rand.nextInt()scala 数学包import scala.math._sqrt(2)pow(2,4)min(2,4)没有参数且不改变当前对象的方法不带圆括号 "hello".distinct使用伴生对象的apply方法来构建对象...

2018-08-23 20:23:47 442

原创 百度POI数据抓取-BeautifulSoup

因为实验室项目需要上海市POI数据,百度了一圈也没有找到下载资源。于是参考了这个博客,自己手动爬取。 比较熟悉Python,所以这里分享自己写的Python版本实现过程。获取百度POI数据的方法是构建关键词搜索url,请求url获取返回的json数据。 http://map.baidu.com/?newmap=1&reqflag=pcmap&biz=1&from=webmap&da_par=di

2017-11-01 21:01:55 22358 5

原创 笔试10.19-2

绿盟 数据分析全是问答题1、分类器,随机森林2、层次聚类3、分类器度量方法 roc,auc,f1,precision,recall4、Apriori5、数据周期性6、spark相关角色说明:Client 、Master、Worker、Driver、Executor 作业提交:standalone模式下spark-submit的过程,资源调度等

2017-10-19 21:23:05 512

原创 笔试10.19

摩拜单车编程题三道1、字符串思路:移动A字符串,找出两个字符串不相等的位数。(前后可以填充为跟B完全一样)void minDiff() { string A, B; getline(cin,A); getline(cin, B); int diff = B.size() - A.size(); int minD = 100; for (int i =

2017-10-19 14:45:01 331

转载 Hive学习

很好的图,mark一下

2017-10-18 09:53:07 281

转载 HDFS工作机制

两大角色: DataNode:负责管理用户的文件数据块 NameNode:负责管理整个文件系统的元数据NameNode的工作机制职责: 1)客户端请求的响应 2)元数据的管理(查询,修改)元数据的存储: 内存中有一份完整的元数据;磁盘中还有一份元数据镜像。NameNode主要维护两个文件: 1)fsimage(filesystem image)文件镜像 存于硬盘的最新的元数据检查点

2017-10-17 23:21:22 1116 1

原创 笔试10.12

商汤科技 选择题5*2 填空题5*4 编程题20+20+30选择题填空题基本是靠智力和数据结构,还算ok。但是后面两道编程题简直给跪啊 感觉智商完全不够用。。留个纪念,说不定哪天有灵感了

2017-10-12 20:49:19 344

转载 Hive学习--参数配置

Hive 参数hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.dynamic.partition •说明:是否为自动分区 •默认值:false hive.mapred.reduce.tasks.speculative.execution •说明:是否打开推测执行

2017-10-12 18:35:19 278

转载 Hive学习--架构和基本组成

参考链接:深入浅出学Hive 1、Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序Hive与Hadoop的关系 Hive与传统数据库对比

2017-10-12 17:27:39 1948

原创 笔试10.11

美团20*2+30*2+2*30编程题:越长越大,所以有12组成。 s%3==0 则结果为 212121… s%3==1 则结果为1212121…1 s%3==2,则结果为212121…2void maxNum() { int s; cin >> s; int num = 0; int len = s / 3; if (s % 3 == 1) {

2017-10-11 21:28:12 272

转载 面试题-海量数据处理问题

参考链接:教你如何迅速秒杀99%的海量数据处理面试题类型一 海量数据,出现次数最多or前K分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序1、海量日志数据,提取出某日访问百度次数最多的那个IP。IP有32位,共有2322^{32}个IP。 1)采用hash的方式,ip%m,将大文件分成m个小文件。 2)对每个小文件,用hash表统计ip出现的次数。找出这个小文件出现次数最多的i

2017-10-10 18:44:45 2243

原创 机器学习面试问题汇总

1、决策树1)常见的决策树模型 决策树(ID3,C4.5,CART)原理,信息增益公式推导,信息增益比的引入原因,Gini指数的用途和原理 2)决策树怎么避免过拟合。 (预剪枝和后剪枝,然后 讲了下两种剪枝的过程)2、聚类1)Kmeans聚类原理,k值的确定方法,优缺点 数据集D中随机选k个作为聚类中心点 每个样本点计算到k个中心点的距离,选择距离最小的归属于该簇。 更新簇的中心点:所有

2017-10-10 00:05:22 402

转载 第九章 聚类

1、聚类任务无监督学习 问题定义2、性能度量(1)外部指标Jaccard系数 FM指数 Randy指数(2)内部指标DB指数 Dunn指数3、距离计算基本性质 闵可夫斯基距离 欧式距离有序属性 无序属性4、原型聚类通过一组原型刻画k均值聚类 学习向量量化LVQ 高斯混合聚类5、密度聚类DBSCAN6、层次聚类AGNES

2017-10-08 19:56:29 345

转载 第四章 决策树

1、基本流程西瓜问题的决策过程: 根结点包含样本全集。 叶结点对应决策结果。(类别标记为样例中最多的类别) 其他结点对应属性测试,每个结点包含的样本集合根据属性测试的结果被划分到不同的子结点。2、划分选择即如何选择最优划分属性,使得决策树的分支结点所包含的样本尽可能属于同一类别。(1)信息增益信息熵(information entropy):度量样本集合纯度的指标。 假设样本集合D中第k

2017-10-08 00:53:13 529

转载 第三章 线性模型

1、基本形式线性模型(linear model):试图学得一个通过属性的线性组合来进行预测的函数 由d个属性来描述的示例x=(x1;x2;...;xd)\boldsymbol x=(x_1;x_2;...;x_d),线性模型可表示为: f(x)=w1x1+w2x2,...+wdxd+bf(\boldsymbol x)=w_1x_1+w_2x_2,...+w_dx_d+b 用向量形式写成: f

2017-10-07 22:44:05 489

转载 第一章 绪论

1、基本术语数据集 样本 属性or特征 样本空间 预测离散值–分类,二分类,多分类 预测连续值–回归监督学习:分类、回归 无监督学习:聚类泛化能力:generalization,模型适用于新样本的能力 通常假设全样本服从一个未知分布D,每个样本都是独立地从这个分布上采样获得的(独立同分布),一般来说,训练样本越多,我们得到的关于D的信息越多,这样通过学习获得具有较强泛化能力的模型。2、

2017-10-07 19:23:24 584

转载 第二章 模型评估与选择

1、经验误差与过拟合错误率(error rate):分类错误的样本数占总样本数的比例。 例如:m个样本中有a个样本分类错误,错误率=a/m,准确度=1-a/m 误差(error):预测输出与样本真实输出之间的差异 训练误差(trainning error)或经验误差(empirical error):在训练集上的误差 泛化误差(generalization):在新样本上的误差我们希望得到泛化

2017-10-05 14:50:05 934

原创 其他听说的笔试面试题

网易游戏数组中有两个数出现次数为奇数,找出这两个数全排列数组中有一个数出现次数大于n/2,找出这个数如果生女孩继续生直到生男孩,问最后的男女比例bigo 看来这家公司比较喜欢考数学,概统要好好学啊这个是数学题吧,考随机数最大和连续子数组 (剑指offer) 一维扩展到二维,orz

2017-09-28 14:01:15 451

原创 Python知识点

面试可能会问到的问题:**Q:**Python里面垃圾回收是怎样的 A: python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略 引用计数–Python中一切即对象,对象有ob_refcnt属性。当一个对象有新的引用时,它的ob_refcnt就会增加,当引用它的对象被删除,它的ob_refcnt就会减少。当引用计数为0时,该对象生命就结束了。

2017-09-26 01:02:44 221

原创 面试9.25

360 一面: 自我介绍 两段实习经历 家宽预测怎么做的,拓展问了决策树,cart用什么选择特征?(这个忘了,基尼系数)机器学习选股,svm,adaboost。有没有上线之类的(没有,决策权不在我)说了JD算法比赛,说了xgboost延伸到了gbdt,解释gbdt的原理。 (多棵树,拟合残差) 怎么验证模型的效果?(计算指标,F1的公式,召回率,准确率)深度学习,CNN为什么不能解决异或

2017-09-25 23:01:54 288

原创 笔试题II

中国电信20道单选(40)+5道多选(20)+三道编程(40) 选择题考察:数据结构,操作系统,数据库,linux,拥塞控制等 编程题: 1)字符串排序 编写一个程序,将输入字符串中的字符按如下规则排序。 规则1:英文字母从A到Z排列,不区分大小写。 如,输入:Type 输出:epTy 规则2:同一个英文字母的大小写同时存在时,按照输入顺序排列。 如,输入:Bab

2017-09-24 22:22:14 270

原创 Hive 日期函数

对于日期时间的操作,记录一下:1、 unix时间戳 ⇋ 日期(string)unix时间戳 —->日期 from_unixtime(unixtime, format) 默认格式是:yyyy-MM-dd HH:mm:ss 1970-01-01 00:00:00 hive> select from_unixtime(1323308943,’yyyyMMdd’) from dual; 2

2017-09-24 14:56:26 846

原创 leetcode 134. Gas Station

1、题目There are N gas stations along a circular route, where the amount of gas at station i is gas[i].You have a car with an unlimited gas tank and it costs cost[i] of gas to travel from station i to its

2017-09-24 10:27:28 241

原创 面试题-面向对象篇

面向对象问题汇总类的大小Q:一个只含有虚函数的类的size为多少? A:参考这个博客 #类中的元素 0. 成员变量 1. 成员函数 2. 静态成员变量 3. 静态成员函数 4. 虚函数 5. 纯虚函数 #影响对象大小的因素 0. 成员变量 1. 虚函数表指针(_vftptr) 2. 虚基类表指针(_vbtptr)

2017-09-22 18:45:19 634

原创 python 字符串函数

s是字符串1、字符判断s.isalnum() 所有字符都是数字或者字母 s.isalpha() 所有字符都是字母 s.isdigit() 所有字符都是数字 s.islower() 所有字符都是小写 s.isupper() 所有字符都是大写 s.istitle() 所有单词都是首字母大写 s.isspace() 所有字符都是空白字符2、查找,替换s.f

2017-09-22 00:18:45 314

原创 排序算法总结

借用一张图,直观对比各种排序算法的性能 1.快速排序要点:每次选择一个**基准元素**pivot,将小于pivot的移到左边,大于pivot的移到右边。 这个动图很赞 这里写链接内容int mypartition(int* array, int left, int right) { int pivot = array[left]; int low = left, high =

2017-09-21 16:41:03 215

原创 剑指offer 最小的k个数

1.题目描述输入n个数字,找出其中最小的k个数。注:有的还会要求保持原有的顺序输出2.分析两种思路: 1)利用快排的思想,找到第k大的分界点。左边的元素都是比它小的 2)维护一个长度为k的容器,里面存放当前最小的k个数,遍历一个新的元素判断是否将其插入该容器。3.代码快排的思想,复杂度O(n)void LeastK(int* array, int n,int k) { if (array

2017-09-21 15:23:50 292

原创 leetcode 680. Valid Palindrome II

1.题目Given a non-empty string s, you may delete at most one character. Judge whether you can make it a palindrome. 给一个非空字符串,最多只允许删除一个字符。判断是否能让这个字符串回文。 Example 1: Input: “aba” Output: True Example 2

2017-09-19 15:42:49 958

转载 探索推荐引擎内部的秘密

虽然年份有点久,但是总结的很好的文章:第 1 部分: 推荐引擎初探 第 2 部分: 深入推荐引擎相关算法 - 协同过滤 第 3 部分: 深入推荐引擎相关算法 - 聚类

2017-09-17 11:53:35 339

原创 剑指offer 滑动窗口的最大值

剑指offer 滑动窗口的最大值

2017-09-17 01:24:45 216

原创 STL 最大堆、最小堆的应用

1.priority_queuepriority_queue默认是最大堆,要用最小堆的话改变一下比较函数priority_queueint, vectorint>, lessint>> maxHeap;priority_queueint, vectorint>, greaterint>> minHeap;也可以自定义比较函数struct cmp{ bool o

2017-09-16 22:45:51 14311

原创 剑指offer 数据流中的中位数

1.题目如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。 要求:时间复杂度不超过O(n)2.分析最大堆:根结点的值最大,每个节点的值都比子节点大 最小堆:根结点的值最小,每个节点的值都比子节点小 将数据分成两部分,一部分位于中位数左边,一部分位于右边 用最

2017-09-16 22:38:42 264

原创 面向对象:封装、继承、多态

概念太多,总结一下,备忘。1.三大特性封装 隐藏对象的属性和实现细节,仅对外提供公共访问方式。继承 代码重用,子类继承父类的函数构造函数的覆盖: (1)父类没有构造函数或只有无参构造函数。 子类无需显示调用父类的构造函数,系统自动在调用子类构造函数前调用父类的构造函数。 (2)父类只有有参构造函数 子类必须显示调用父类构造函数 (3)父类有无参和有参的构造函数 子类不显示调用

2017-09-14 22:44:18 317

原创 python语法备忘(II)

python语法备忘(I) 5.参数传递(1)形参,实参,传值调用,引用调用形参:定义函数名和函数体的时候使用的参数,用来接收函数调用时传进来的参数 实参:调用时传递给函数的参数在调用函数时,实参将赋值给形参。 形参变量只有在被调用时才分配内存单元,在调用结束时, 即刻释放所分配的内存单元。传值调用:只使用了实参的值。传值调用机制里,形参是一个局部变量,其初始值为相应实

2017-09-14 18:18:22 252

原创 Python语法备忘(I)

1.读写文件#读文件try: f = open(filename,'r') print f.read()finally: if f: f.close()#按行来读for line in f.readlines(): print line#用withwith open(filename,'r') as f: print

2017-09-14 17:37:44 302

原创 leetcode 654. Maximum Binary Tree

1.题目Given an integer array with no duplicates. A maximum tree building on this array is defined as follow: 给一个不含重复元素的整型数组。要求构造一棵二叉树,规则为: 1)根结点是数组中最大的元素 2)最大元素左侧的元素构成左子树,右侧的元素构成右子树 The root is the m

2017-09-14 15:32:41 237

原创 leetcode 665. Non-decreasing Array

1.题目Given an array with n integers, your task is to check if it could become non-decreasing by modifying at most 1 element. We define an array is non-decreasing if array[i] <= array[i + 1] holds for e

2017-09-14 14:49:40 647 1

原创 leetcode 400. Nth Digit

1.题目Find the nth digit of the infinite integer sequence 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, … 有这样一个无限序列,求这个序列的第n个数字是多少。 Note: n is positive and will fit within the range of a 32-bit signed integer (n

2017-09-13 20:13:30 204

原创 leetcode 14. Longest Common Prefix

1.题目Write a function to find the longest common prefix string amongst an array of strings. 给一个字符串的数组,求这些字符串的最长公共前缀2.分析数组A中有字符串s1,s2,..sn 所有的字符串si都与第一个字符串s1横向比较。 对于位置j=0, 如果所有字符串该位置上的字符si[j]=s1[

2017-09-13 17:09:27 187

原创 leetcode 633. Sum of Square Numbers

1.题目Given a non-negative integer c, your task is to decide whether there’re two integers a and b such that a2 + b2 = c. 给一个数字C,判断C是否能由两个数的平方组成 Example 1: Input: 5 Output: True Explanation: 1 * 1 +

2017-09-13 13:42:02 219

win7-32位-python2.7-numpy-matplotlib-scipy-scikit-learn-whl-Part2

win7 32位环境下python2.7的numpy,scipy,matplotlib,scikit-learn模块安装教程。附whl安装文件。64位环境下的安装也可参考。(由于资源大小限制,分两部分上传,此为part2)请结合part1一起使用

2017-03-18

win7-32位-python2.7-numpy-matplotlib-scipy-scikit-learn-Part1

win7 32位环境下python2.7的numpy,scipy,matplotlib,scikit-learn模块安装教程。附whl安装文件。64位环境下的安装也可参考。(由于资源大小限制,分两部分上传,此为part1)

2017-03-18

win8小应用ListView、FilpView和GridView

win8小应用,用ListView、FilpView和GridView展示几张图片和相应 的属性(图片名称,hint:可以写一个图片类,demo已给出)或文字介 绍(要求使用数据绑定)

2015-05-04

背包问题-背包九讲

背包问题(Knapsack problem)是一种组合优化的NP完全问题。问题可以描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最高。问题的名称来源于如何选择最合适的物品放置于给定背包中。相似问题经常出现在商业、组合数学,计算复杂性理论、密码学和应用数学等领域中。

2013-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除