普通网友-CSDN博客

原创 matplotlib快速

基本的用法：import matplotlib.pyplot as pltimport numpy as npx=np.linspace(-1,1,50) #定义x：范围是(-1,1);个数是50y=10*x+1y2=

2017-07-06 22:19:31 158

原创 numpy的快速学习--array的属性与创建

array的运算对于一维矩阵~In [2]: a=np.array([10,20,30,40]) #array([10, 20, 30, 40])In [3]: b=np.arange(1,5,1) #array([1, 2, 3, 4])常见的类型有 a+b #array([11, 22, 33, 44])a-b #array([ 9, 18,

2017-07-06 18:45:24 262

原创 numpy的快速学习--array的属性与创建

1. numpy的引入： import numpy as np2. 列表转化为矩阵In [2]: import numpy as npIn [3]: array=np.array( [ [1,2,3],[2,3,4] ] )In [4]: print array[[1 2 3] [2 3 4]]3. numpy 的属性:ndim：维度shape：行

2017-07-06 17:55:09 245

原创 jvm常见的面试题

1. 内存模型以及分区，需要详细到每个区放什么。2. 堆里面的分区：Eden，survival from to，老年代，各自的特点。3. 对象创建方法，对象的内存分配，对象的访问定位。4. GC的两种判定方法：引用计数与引用链。5. GC的三种收集方法：标记清除、标记整理、复制算法的原理与特点，分别用在什么地方，如果让你优化收集方法，有什么思路？6. GC收

2016-09-04 21:45:52 7463

原创搜索算法总结----序

1）盲目搜索二分查找BFSDFS2）启发性搜索A*蚁群模拟退火遗传算法

2016-08-30 22:04:42 290

原创 numpy入门总结

import numpy as npdata1=[[34,2,3,4], [22,45,67,21], [56,89,78.7,77.5] ]arr1=np.array(data1)print arr1.ndim #2print arr1.shape # (3L, 4L)print arr1.size #12print

2016-08-05 11:29:14 490

原创 xgboost 与 GBDT算法

GBDTxgboostxgboost on yarn

2016-07-21 15:18:51 347

原创 spark 总结1-用python 语言

1）调整shell日志的信息：在conf下创建一个 log4j.properties的文件来管理日志的设置，后将 log4j.rootCategory=INFO,console 修改为 log4j.rootCategory=WARN,console2)使用IPython安装好 IPython,然后，启动时，将 IPYTHON=1，即 $ IPYTHON=1 bin/pyspark ，也

2016-07-20 21:27:08 114

原创决策树和随机森林

# -*- coding: utf-8 -*-"""Created on Wed Jul 20 12:49:48 2016@author: vincent"""#!/usr/bin/pythonfrom sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import treefrom s

2016-07-20 15:09:10 804

转载 Python爬虫入门六之Cookie的使用

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。在此之前呢，我们必须先介绍一个opener的概念。1.Opener当你

2016-07-15 17:47:11 1578

转载 python 正则表达式

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

2016-07-15 11:39:25 190

转载 Python爬虫入门五之URLError异常处理

http://cuiqingcai.com/961.html大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因：1）网络无连接，即本机无法上网2）连接不到特定的服务器3）服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常

2016-07-15 11:26:07 632

原创爬虫--学习系列--Urllib库的使用

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。1234impo

2016-07-14 21:36:17 726

原创韩寒的博客文章---爬虫3

# -*- coding: utf-8 -*-"""@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.htmlimport urllibimport timeurl=['']*350length=0;for page in range(1,8):

2016-07-14 17:53:14 415

原创韩寒的博客文章---爬虫2

# -*- coding: utf-8 -*-"""Created on Sun Jul 10 16:16:43 2016@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.htmlimport urllibimport timeurl=[''

2016-07-14 17:17:17 380

原创韩寒的博客文章---爬虫

# -*- coding: utf-8 -*-"""Created on Sun Jul 10 16:16:43 2016@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html"""《论电影的七个元素》——关于我对电…碎片 """import urllibmyst

2016-07-14 11:12:49 763

原创 hive基础总结--数据库，表，导入数据

常用的配置信息含义：hive.metastore.warehouse.dir 数据仓库存放在位置set hive.matestore.warehouse.dir=/user/hive/warehousemysql存放元数据，如表的分区和模式。hive –e “语句” 执行一条语句；一次使用的的命令hive –f “文件”执行一个文件；从文件中执行hive查询hive> so

2016-07-01 20:32:08 1026

转载 Hive SQL的编译过程

转载于 http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇

2016-06-28 14:45:40 255

原创线性回归与逻辑回归

参考：讲义和视频http://www.cnblogs.com/fanyabo/p/4060498.html个人只是将思路整理一下。线性回归：1）损失函数：2）解释：（概率解释：）对上面的式子求“极大自然估计：”解法：批处理梯度下降：随机梯度下降：最小二乘法：局部的线性回归

2016-05-15 17:08:57 245

原创用 shell 实现快速排序（还存在问题）

#/bin/sharr_test=(2,3,4,12,32,11,21);echo "First array is :"for e in $arr_testdo echo $edonefunction_sort(){arr=$1;left=$2;right=$3;povit=$arr[$left];while [ $left -lt $right ]do while [

2016-05-14 22:24:42 357

原创实习--Linux命令复习 awk sed nohup & date vi dirname basename

在跑着表，都快跑了2个小时了，叹，真慢啊！！，偷闲学习一下，加油！！awk的学习：http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html http://man.linuxde.net/awk使用方法：awk'{pattern + action}' {filenames} 其中 pattern 表示 A

2016-05-13 14:40:14 405

原创 hive null和创建表的模板

最近，一直在写 hive1）create_table LZO格式1. 建议：shell名称为hive表名，采用此模板仅需二步 a) 编辑字段信息；b) 指定分区信息；2. 运行shell，请使用全路径，如 sh/data3/dmp_online/dmp/dw/mds/purpow/create_table/mds_dm_purpow_source_his.sh；3.

2016-05-11 22:34:01 701

原创实习---pv uv ，SHELL syntax error:unexpected end of file，SQL语句执行顺序

一、曝光pv ,uv 点击pv , uv 1) PV访问量（Page View），即页面访问量，每打开一次页面PV计数+1，刷新页面也是。2) UV访问数（UniqueVisitor）指独立访客访问数，一台电脑终端为一个访客。3) 点击pv 和uv 是一定要有先曝光，才能有点击，所以，要用hive做个连接，并且，在计算点击一天的点击pv和uv时，曝光表连接

2016-05-11 22:08:37 449

转载海盗分赃-逻辑推理

5个很聪明的海盗抢到100个金币,他们决定依次由A,B,C,D,E五个海盗来分当由A分时,剩下的海盗表决,如果B,C,D,E四人中有一半以上反对就把A扔下海,再由B分……以此类推；如果一半及以上的人同意,就按A的分法假设每一个海盗都是绝顶聪明而理性,他们都能够进行严密的逻辑推理,并能很理智的判断自身的得失,即能够在保住性命的前提下得到最多的金币.同时还假设每一轮表决后的结果都能顺利得到执行,

2016-04-24 21:28:43 610

转载并查集(Union-Find)算法介绍

本文主要介绍解决动态连通性一类问题的一种算法，使用到了一种叫做并查集的数据结构，称为Union-Find。更多的信息可以参考Algorithms 一书的Section 1.5，实际上本文也就是基于它的一篇读后感吧。原文中更多的是给出一些结论，我尝试给出一些思路上的过程，即为什么要使用这个方法，而不是别的什么方法。我觉得这个可能更加有意义一些，相比于记下一些结论。

2016-04-24 11:45:02 304

转载 hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个

2016-04-23 19:58:36 238

转载彻底了解mapreduce核心Shuffle

mapreduce是hadoop的核心之一，mapreduce经常让我们产生各种困惑，我们只是知道什么是map，什么是renduce，甚至我们已经熟悉了mapreduce编程，但是内部的原理还是不明白。下面在回帖中，给大家解决部分问题。更多问题有待挖掘。1.Shuffle的定义是什么？2.map task与reduce task的执行是否在不同的节点上？3.Shuffle产生的意义是什

2016-04-20 20:41:09 252

转载背包问题九讲

P01: 01背包问题题目有N件物品和一个容量为V的背包。第i件物品的费用是c[i]，价值是w[i]。求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量，且价值总和最大。基本思路这是最基础的背包问题，特点是：每种物品仅有一件，可以选择放或不放。用子问题定义状态：即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状态转移方程便

2016-04-19 16:41:24 249

转载无序整数数组中找第k大的数

写一段程序，找出数组中第k大小的数，输出数所在的位置。【解法一】我们先假设元素的数量不大，例如在几千个左右，在这种情况下，那我们就排序一下吧。在这里，快速排序或堆排序都是不错的选择，他们的平均时间复杂度都是 O（N * log2N）。然后取出前 K 个，O（K）。总时间复杂度 O（N * log2N）+ O（K） = O（N * log2N）。你一定注意

2016-04-19 11:53:00 549

转载请用Java设计一个Least Recently Used (LRU) 缓存

LRU介绍：LRU是Least Recently Used的缩写，即最少使用页面置换算法，是为虚拟页式存储管理服务的。思路介绍：可以使用两个标准的数据结构来实现，Map和Queue。因为需要支持多线程，需要使用实现了java.utili.concurrent.*的Map和Queue。主要思路是使用一个Queue来维护FIFO和Map来对数据进行排序，当向缓存添加新的

2016-03-21 22:18:40 756

原创 centos7.0 MYSQL rpm包的安装与其它的一些问题

1）在http://dev.mysql.com/downloads/mysql下下载对应的rpm包。2）安装mysqlRpm –ivh MySQL-client-5.6.23-1.linux_glibc2.5.x86_64.rpmMySQL-devel-5.6.23-1.linux_glibc2.5.x86_64.rpm MySQL-server-5.6.23-1.lin

2015-09-29 21:45:25 526

原创最近碰到的一技术问题总结一（关于数据入库的问题）

最初始的问题：约有几百个G 的文件，约200多个数据文件，要分别导入到mysql 数据库中的40多个表中而碰到的问题。

2015-07-19 22:02:39 392

转载糟糕程序员的各种迹象

为什么写这篇文章？本文提到的绝大多数错误，都是作者历经一番艰辛才得以发现，要么是因为自己犯过，要么是在别人的工作中见过。本文并非意图对程序员划分等级，只是适合某些程序员阅读，他们相信自己有能力判断一件事情在什么情况下是不良习惯的迹象，在什么情况下则是特殊环境导致的结果。写这个系列是为了迫使作者自省，而发布出来，是因为觉得大家也可能会从中找到感兴趣的地方。一、糟糕程序

2015-07-18 22:26:36 333

分治算法经典案例分析-01 --大整数相乘问题

首先，我们来复习一下分治算法的思想：将一个大的问题，分解成若干个性质相同或相似的小的问题（最好是独立的），每一个小的问题是可以求解的。再将小的问题，合并成原的大的问题。而为了解决一个给定的问题，算法要一次或多次地递归调用其自身来解决相关的子问题。这些算法通常采用分治策略。所以说，分治算法我递归调用是一对孪生的兄弟。分治算法的三个步骤：分解：将一个问题分解成一系列子问题。

2015-07-12 19:18:44 910

原创算法导论2.3-7题目的解答

请给出一个运行时间为 O(N*lgN)的复杂度，使这能在给定的一个由n个整数构成的集合S和另一个整数 sum 时，判断出 S中是否存在两个和等于 sum 的元素。先进行合并排序，得到一排序的数组A，时间复杂度为 O(N*lgN) ，然后，遍历数组中的元素，每次用二分查找 sum-A[i] (注意，二分查收时，查找的目标数组为 A[0,1,2....n-1 ] -A[i]

2015-07-09 21:58:59 173

转载分治算法

一、基本概念在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多的相同或相似的子问题，再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解，原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础，如排序算法(快速排序，归并排序)，傅立叶变换(快速傅立叶变换)……任何一个可以用计算机求解的问题所需的计算时间都与其规模

2015-07-08 21:41:11 329

转载序列化和反序列化（二）

序列化和反序列化（转http://tech.meituan.com/serialization_vs_deserialization.html）摘要序列化和反序列化几乎是工程师们每天都要面对的事情，但是要精确掌握这两个概念并不容易：一方面，它们往往作为框架的一部分出现而湮没在框架之中；另一方面，它们会以其他更容易理解的概念出现，例如加密、持久化。然而，序列化和反序列化的

2015-06-28 13:26:39 376

转载 java序列化与反序列化

Java基础学习总结——Java对象的序列化和反序列化一、序列化和反序列化的概念　　把对象转换为字节序列的过程称为对象的序列化。　　把字节序列恢复为对象的过程称为对象的反序列化。　　对象的序列化主要有两种用途：　　1）把对象的字节序列永久地保存到硬盘上，通常存放在一个文件中；　　2）在网络上传送对象的字节序列。　　在很多应用中，需要对某些对象进行序列化，让它

2015-06-28 13:24:04 339

24种设计模式（高手进阶）

本书详细介绍了26种设计模式，如果你是 java刚学的人，不建议阅读，如果你想成为一名真正的java高手，请认真阅读。。

2013-04-06

本课题设计的目标是实现一个基于MVC(Module-View-Controller)模式的电子商城网站。在概要设计中，根据系统分析的结果，把系统分为前台和后台两大模块。根据前台和后台用户的不同需求，把前台细分为会员登录注册，商品查询，商品购买，订单查询,反馈留言等模块，把后台细分为管理员登录，商品种类管理，商品（特价）管理，订单设置，留言回复，系统用户管理等模块。详细介绍了在基于MVC模式的struts框架和轻量级持久化框架Hibernate下各个模块的实现过程，且以开发过程为基础对在 struts框架和Hibernate框架下实现的系统所具有的可重用性、可维护性和可扩展性等优势进行了分析。本数据库的设计基于Mysql5.1并用PowerDesigner12.5来设计其设计其数据库的物理模型。而系统的功能实现用到了JS、Ajax,servlet等J2EE技术。

2013-04-06

MySQL_5.1_zh.chm（中文的）

MySQL_5.1_zh.chm MySQL 5.1参考手册（中文的）

2013-04-06

myeclipse反编译插件

myeclipse反编译插件压缩包中有 java反编译插件的安装的方法

2013-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

24种设计模式（高手进阶）

hibernate3.6.7中文帮助文档

电子商城（J2ee）

MySQL_5.1_zh.chm（中文的）

myeclipse反编译插件

空空如也