- 博客(42)
- 资源 (7)
- 收藏
- 关注
原创 matplotlib快速
基本的用法:import matplotlib.pyplot as pltimport numpy as npx=np.linspace(-1,1,50) #定义x:范围是(-1,1);个数是50y=10*x+1y2=
2017-07-06 22:19:31 128
原创 numpy的快速学习--array的属性与创建
array的运算对于一维矩阵~In [2]: a=np.array([10,20,30,40]) #array([10, 20, 30, 40])In [3]: b=np.arange(1,5,1) #array([1, 2, 3, 4])常见的类型有 a+b #array([11, 22, 33, 44])a-b #array([ 9, 18,
2017-07-06 18:45:24 222
原创 numpy的快速学习--array的属性与创建
1. numpy的引入: import numpy as np2. 列表转化为矩阵In [2]: import numpy as npIn [3]: array=np.array( [ [1,2,3],[2,3,4] ] )In [4]: print array[[1 2 3] [2 3 4]]3. numpy 的属性:ndim:维度shape:行
2017-07-06 17:55:09 213
原创 jvm常见的面试题
1. 内存模型以及分区,需要详细到每个区放什么。2. 堆里面的分区:Eden,survival from to,老年代,各自的特点。3. 对象创建方法,对象的内存分配,对象的访问定位。4. GC的两种判定方法:引用计数与引用链。5. GC的三种收集方法:标记清除、标记整理、复制算法的原理与特点,分别用在什么地方,如果让你优化收集方法,有什么思路?6. GC收
2016-09-04 21:45:52 7410
原创 numpy入门总结
import numpy as npdata1=[[34,2,3,4], [22,45,67,21], [56,89,78.7,77.5] ]arr1=np.array(data1)print arr1.ndim #2print arr1.shape # (3L, 4L)print arr1.size #12print
2016-08-05 11:29:14 462
原创 spark 总结1-用python 语言
1)调整shell日志的信息:在conf下创建一个 log4j.properties的文件来管理日志的设置,后将 log4j.rootCategory=INFO,console 修改为 log4j.rootCategory=WARN,console2)使用IPython安装好 IPython,然后,启动时,将 IPYTHON=1,即 $ IPYTHON=1 bin/pyspark ,也
2016-07-20 21:27:08 98
原创 决策树和随机森林
# -*- coding: utf-8 -*-"""Created on Wed Jul 20 12:49:48 2016@author: vincent"""#!/usr/bin/pythonfrom sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import treefrom s
2016-07-20 15:09:10 767
转载 Python爬虫入门六之Cookie的使用
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。在此之前呢,我们必须先介绍一个opener的概念。1.Opener当你
2016-07-15 17:47:11 1540
转载 Python爬虫入门五之URLError异常处理
http://cuiqingcai.com/961.html大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:1)网络无连接,即本机无法上网2)连接不到特定的服务器3)服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常
2016-07-15 11:26:07 568
原创 爬虫--学习系列--Urllib库的使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。1234impo
2016-07-14 21:36:17 687
原创 韩寒的博客文章---爬虫3
# -*- coding: utf-8 -*-"""@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.htmlimport urllibimport timeurl=['']*350length=0;for page in range(1,8):
2016-07-14 17:53:14 397
原创 韩寒的博客文章---爬虫2
# -*- coding: utf-8 -*-"""Created on Sun Jul 10 16:16:43 2016@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.htmlimport urllibimport timeurl=[''
2016-07-14 17:17:17 363
原创 韩寒的博客文章---爬虫
# -*- coding: utf-8 -*-"""Created on Sun Jul 10 16:16:43 2016@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html"""《论电影的七个元素》——关于我对电…碎片 """import urllibmyst
2016-07-14 11:12:49 675
原创 hive基础总结--数据库,表,导入数据
常用的配置信息含义:hive.metastore.warehouse.dir 数据仓库存放在位置set hive.matestore.warehouse.dir=/user/hive/warehousemysql存放元数据,如表的分区和模式。hive –e “语句” 执行一条语句;一次使用的的命令hive –f “文件”执行一个文件;从文件中执行hive查询hive> so
2016-07-01 20:32:08 1000
转载 Hive SQL的编译过程
转载于 http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇
2016-06-28 14:45:40 230
原创 线性回归与逻辑回归
参考:讲义和视频http://www.cnblogs.com/fanyabo/p/4060498.html个人只是将思路整理一下。线性回归:1)损失函数:2)解释:(概率解释:)对上面的式子求“极大自然估计:”解法:批处理梯度下降:随机梯度下降:最小二乘法:局部的线性回归
2016-05-15 17:08:57 227
原创 用 shell 实现快速排序(还存在问题)
#/bin/sharr_test=(2,3,4,12,32,11,21);echo "First array is :"for e in $arr_testdo echo $edonefunction_sort(){arr=$1;left=$2;right=$3;povit=$arr[$left];while [ $left -lt $right ]do while [
2016-05-14 22:24:42 323
原创 实习--Linux命令复习 awk sed nohup & date vi dirname basename
在跑着表,都 快跑了2个小时了,叹,真慢啊!!,偷闲学习一下,加油!!awk的学习:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html http://man.linuxde.net/awk使用方法:awk'{pattern + action}' {filenames} 其中 pattern 表示 A
2016-05-13 14:40:14 386
原创 hive null和创建表的模板
最近,一直在写 hive1)create_table LZO格式1. 建议:shell名称为hive表名,采用此模板仅需二步 a) 编辑字段信息;b) 指定分区信息;2. 运行shell,请使用全路径,如 sh/data3/dmp_online/dmp/dw/mds/purpow/create_table/mds_dm_purpow_source_his.sh;3.
2016-05-11 22:34:01 676
原创 实习---pv uv ,SHELL syntax error:unexpected end of file,SQL语句执行顺序
一、曝光pv ,uv 点击pv , uv 1) PV访问量(Page View),即页面访问量,每打开一次页面PV计数+1,刷新页面也是。2) UV访问数(UniqueVisitor)指独立访客访问数,一台电脑终端为一个访客。3) 点击pv 和uv 是一定要有先曝光,才能有点击,所以,要用hive做个连接,并且,在计算点击一天的点击pv和uv时,曝光表连接
2016-05-11 22:08:37 421
转载 海盗分赃-逻辑推理
5个很聪明的海盗抢到100个金币,他们决定依次由A,B,C,D,E五个海盗来分当由A分时,剩下的海盗表决,如果B,C,D,E四人中有一半以上反对就把A扔下海,再由B分……以此类推;如果一半及以上的人同意,就按A的分法 假设每一个海盗都是绝顶聪明而理性,他们都能够进行严密的逻辑推理,并能很理智的判断自身的得失,即能够在保住性命的前提下得到最多的金币.同时还假设每一轮表决后的结果都能顺利得到执行,
2016-04-24 21:28:43 565
转载 并查集(Union-Find)算法介绍
本文主要介绍解决动态连通性一类问题的一种算法,使用到了一种叫做并查集的数据结构,称为Union-Find。更多的信息可以参考Algorithms 一书的Section 1.5,实际上本文也就是基于它的一篇读后感吧。原文中更多的是给出一些结论,我尝试给出一些思路上的过程,即为什么要使用这个方法,而不是别的什么方法。我觉得这个可能更加有意义一些,相比于记下一些结论。
2016-04-24 11:45:02 285
转载 hive优化之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个
2016-04-23 19:58:36 214
转载 彻底了解mapreduce核心Shuffle
mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapreduce编程,但是内部的原理还是不明白。下面在回帖中,给大家解决部分问题。更多问题有待挖掘。1.Shuffle的定义是什么?2.map task与reduce task的执行是否在不同的节点上?3.Shuffle产生的意义是什
2016-04-20 20:41:09 227
转载 背包问题九讲
P01: 01背包问题 题目 有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量,且价值总和最大。 基本思路 这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。 用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状态转移方程便
2016-04-19 16:41:24 224
转载 无序整数数组中找第k大的数
写一段程序,找出数组中第k大小的数,输出数所在的位置。【解法一】我们先假设元素的数量不大,例如在几千个左右,在这种情况下,那我们就排序一下吧。在这里,快速排序或堆排序都是不错的选择,他们的平均时间复杂度都是 O(N * log2N)。然后取出前 K 个,O(K)。总时间复杂度 O(N * log2N)+ O(K) = O(N * log2N)。你一定注意
2016-04-19 11:53:00 521
转载 请用Java设计一个Least Recently Used (LRU) 缓存
LRU介绍:LRU是Least Recently Used的缩写,即最少使用页面置换算法,是为虚拟页式存储管理服务的。思路介绍:可以使用两个标准的数据结构来实现,Map和Queue。因为需要支持多线程,需要使用实现了java.utili.concurrent.*的Map和Queue。主要思路是使用一个Queue来维护FIFO和Map来对数据进行排序,当向缓存添加新的
2016-03-21 22:18:40 720
原创 centos7.0 MYSQL rpm包的安装与其它的一些问题
1) 在http://dev.mysql.com/downloads/mysql下下载对应的rpm包。2) 安装mysqlRpm –ivh MySQL-client-5.6.23-1.linux_glibc2.5.x86_64.rpmMySQL-devel-5.6.23-1.linux_glibc2.5.x86_64.rpm MySQL-server-5.6.23-1.lin
2015-09-29 21:45:25 502
原创 最近碰到的一技术问题总结一(关于数据入库的问题)
最初始的问题:约有几百个G 的文件,约200多个数据文件,要分别导入到mysql 数据库中的40多个表中而碰到的问题。
2015-07-19 22:02:39 367
转载 糟糕程序员的各种迹象
为什么写这篇文章?本文提到的绝大多数错误,都是作者历经一番艰辛才得以发现,要么是因为自己犯过,要么是在别人的工作中见过。本文并非意图对程序员划分等级,只是适合某些程序员阅读,他们相信自己有能力判断一件事情在什么情况下是不良习惯的迹象,在什么情况下则是特殊环境导致的结果。写这个系列是为了迫使作者自省,而发布出来,是因为觉得大家也可能会从中找到感兴趣的地方。一、糟糕程序
2015-07-18 22:26:36 309
分治算法经典案例分析-01 --大整数相乘问题
首先,我们来复习一下分治算法的思想:将一个大的问题,分解成 若干个性质相同或相似的小的问题(最好是独立的),每一个小的问题是可以求解的。再将小的问题,合并成原的大的问题。而为了解决一个给定的问题,算法要一次或多次地递归调用 其自身来解决相关的子问题。这些算法通常采用 分治策略。所以说,分治算法我递归调用是一对孪生的兄弟。分治算法的三个步骤: 分解:将一个问题分解成一系列子问题。
2015-07-12 19:18:44 861
原创 算法导论2.3-7题目的解答
请给出一个运行时间为 O(N*lgN)的复杂度,使这能在给定的一个由n个整数构成的集合S和 另一个 整数 sum 时,判断出 S中是否存在 两个和等于 sum 的元素。先进行合并排序,得到一排序的数组A,时间复杂度为 O(N*lgN) ,然后,遍历数组中的元素,每次用二分查找 sum-A[i] (注意,二分查收时,查找的目标数组为 A[0,1,2....n-1 ] -A[i]
2015-07-09 21:58:59 155
转载 分治算法
一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)……任何一个可以用计算机求解的问题所需的计算时间都与其规模
2015-07-08 21:41:11 309
转载 序列化和反序列化( 二)
序列化和反序列化(转http://tech.meituan.com/serialization_vs_deserialization.html)摘要序列化和反序列化几乎是工程师们每天都要面对的事情,但是要精确掌握这两个概念并不容易:一方面,它们往往作为框架的一部分出现而湮没在框架之中;另一方面,它们会以其他更容易理解的概念出现,例如加密、持久化。然而,序列化和反序列化的
2015-06-28 13:26:39 355
转载 java序列化与反序列化
Java基础学习总结——Java对象的序列化和反序列化一、序列化和反序列化的概念 把对象转换为字节序列的过程称为对象的序列化。 把字节序列恢复为对象的过程称为对象的反序列化。 对象的序列化主要有两种用途: 1) 把对象的字节序列永久地保存到硬盘上,通常存放在一个文件中; 2) 在网络上传送对象的字节序列。 在很多应用中,需要对某些对象进行序列化,让它
2015-06-28 13:24:04 321
电子商城(J2ee)
2013-04-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人