自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

转载 使用c语言来扩展python模块

我们来实现一个简单的加法的扩展模块!建立一个目录,整个目录名中不要包含中文。在目录下建立add.c,内容如下:#include ;static PyObject* add(PyObject *self, PyObject *args); //一定声明为static,把他们限制在这个文件范围里。 几乎所有的参数都是PyObject类型。 在python,每个东西都

2016-03-24 16:59:29 415

转载 海量数据采集爬虫架构

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本

2016-03-24 15:57:58 8118

转载 python实现pagerank

#coding=utf-8# Filename:pr.pyS=[[0,0,0,0],[0.3333,0,0,1],[0.3333,0.5,0,0],[0.3333,0.5,1,0]]#原始矩阵U=[[1,1,1,1],[1,1,1,1],[1,1,1,1],[1,1,1,1]] #全部都为1的矩阵f=[1,1,1,1]  #物征向量alpha=0.85 

2016-03-19 14:49:24 2002

转载 baidu分词技术分析

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

2016-03-19 14:43:44 494

转载 数据清洗经验

平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代,数据清洗越来越重要,也越来越复杂。看到Philip J.Guo 的这篇英文文章《Parsing Raw Data》觉得不错,学习并译成中文,难免谬误,仅供参考。  前言  科研工作者、工程师、业务分析者这些和数据打交道的职业,数据分析在他们工作中是一项核心任务。这

2016-03-17 21:02:27 876

转载 Python nltk自然语言处理基本资料

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建  http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 

2016-03-17 21:01:08 1369

转载 数据清洗实例分析

DataEye:数据清洗实例分析发表于2015-01-29 14:32| 2894次阅读| 来源资讯| 3 条评论| 作者资讯摘要:随着信息技术的快速发展,各个领域都在每时每刻以惊人的速度产生出各式各样的规模巨大的数据信息,人类也在工作生活的方方面面接触到越来越多的数据信息。然而,人类对数据信息理解的匮乏与数据爆炸的趋势显得并不对称,人类在努力将数据信息转化为有

2016-03-17 20:49:55 12862

转载 ngnix架构

转自 http://tengine.taobao.org/book/chapter_02.html初探nginx架构(100%)众所周知,nginx性能高,而nginx的高性能与其架构是分不开的。那么nginx究竟是怎么样的呢?这一节我们先来初识一下nginx框架吧。nginx在启动后,在unix系统中会以daemon的方式在后台运行,后台进程包含一个master进程和多个work

2016-03-15 17:59:35 1042

转载 tomcat 与 ngnix配置

相信很多人都听过nginx,这个小巧的东西慢慢地在吞食apache和IIS的份额。那究竟它有什么作用呢?可能很多人未必了解。说到反向代理,可能很多人都听说,但具体什么是反向代理,很多人估计就不清楚了。摘一段百度百科上的描述:Html代码  反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并

2016-03-15 17:57:53 975

转载 mac安装nginx步骤

以下是在mac os x 10.9.2 安装nginx步骤安装PCRE1、Download latest PCRE. 2、安装$ cd ~/Downloads$ tar xvzf pcre-8.5$ cd pcre-8.5$ sudo ./configure --prefix=/usr/local$ sudo make$ sudo make insta

2016-03-14 20:21:34 332

转载 tomcat与nginx区别

web上的server都叫web server,但是大家分工也有不同的。nginx常用做静态内容服务和代理服务器(不是你FQ那个代理),直面外来请求转发给后面的应用服务(tomcat,django什么的),tomcat更多用来做做一个应用容器,让java web app跑在里面的东西,对应同级别的有jboss,jetty等东西。但是事无绝对,nginx也可以通过模块开发来提供应

2016-03-13 14:24:43 406

转载 15个java多线程面试题

Java 线程面试问题在任何Java面试当中多线程和并发方面的问题都是必不可少的一部分。如果你想获得任何股票投资银行的前台资讯职位,那么你应该准备很多关于多线程的问题。在投资银行业务中多线程和并发是一个非常受欢迎的话题,特别是电子交易发展方面相关的。他们会问面试者很多令人混淆的Java线程问题。面试官只是想确信面试者有足够的Java线程与并发方面的知识,因为候选人中有很多只浮于表面。用于直

2016-03-13 12:52:51 644 1

转载 编程面试的10大算法概念汇总

以下是在编程面试中排名前10的算法相关的概念,我会通过一些简单的例子来阐述这些概念。由于完全掌握这些概念需要更多的努力,因此这份列表只是作为一个介绍。本文将从Java的角度看问题,包含下面的这些概念:1. 字符串2. 链表3. 树4. 图5. 排序6. 递归 vs. 迭代7. 动态规划8. 位操作9. 概率问题10. 排列组合1. 字符串

2016-03-13 12:52:06 386

转载 java多线程面试题

多线程和并发问题是Java技术面试中面试官比较喜欢问的问题之一。在这里,从面试的角度列出了大部分重要的问题,但是你仍然应该牢固的掌握Java多线程基础知识来对应日后碰到的问题。(校对注:非常赞同这个观点)Java多线程面试问题1. 进程和线程之间有什么不同?一个进程是一个独立(self contained)的运行环境,它可以被看作一个程序或者一个应用。而线程是在进程中执行的

2016-03-13 12:50:23 448

转载 Java Classloader机制

一、什么是ClassLoader?大家都知道,当我们写好一个Java程序之后,不是管是CS还是BS应用,都是由若干个.class文件组织而成的一个完整的Java应用程序,当程序在运行时,即会调用该程序的一个入口函数来调用系统的相关功能,而这些功能都被封装在不同的class文件当中,所以经常要从这个class文件中要调用另外一个class文件中的方法,如果另外一个文件不存在的,则会引发系统异

2016-03-13 11:28:06 307

转载 python 爬虫好文 urllib cookie beautifulsoap

Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Python爬虫入门(3):Urllib库的基本使用Python爬虫入门(4):Urllib库的高级用法Python爬虫入门(5):URLError异常处理Python爬虫入门(6):Cookie的使用Python爬虫入门(7):正则表达式Python爬虫入门(8):Beautiful Soup的用法大家好哈,上一节我们研

2016-03-07 16:58:42 1461

转载 python内存管理与垃圾回收

语言的内存管理是语言设计的一个重要方面。它是决定语言性能的重要因素。无论是C语言的手工管理,还是Java的垃圾回收,都成为语言最重要的特征。这里以Python语言为例子,说明一门动态类型的、面向对象的语言的内存管理方式。 对象的内存使用赋值语句是语言最常见的功能了。但即使是最简单的赋值语句,也可以很有内涵。Python的赋值语句就很值得研究。a = 1整

2016-03-06 21:37:32 380

转载 python内存管理

先从较浅的层面来说,Python的内存管理机制可以从三个方面来讲(1)垃圾回收(2)引用计数(3)内存池机制一、垃圾回收:python不像C++,Java等语言一样,他们可以不用事先声明变量类型而直接对变量进行赋值。对Python语言来讲,对象的类型和内存都是在运行时确定的。这也是为什么我们称Python语言为动态类型的原因(这里我们把动态类型可以简单的归结

2016-03-06 21:32:33 247

转载 spring bean scope 单例与多例

如何使用spring的作用域:这里的scope就是用来配置spring bean的作用域,它标识bean的作用域。在spring2.0之前bean只有2种作用域即:singleton(单例)、non-singleton(也称 prototype), Spring2.0以后,增加了session、request、global session三种专用于Web应用程序上下文的Bean。因此,

2016-03-06 21:18:40 531

转载 spring创建bean的三种方式-通过构造器,通过静态工厂方法,通过实例工厂方法

创建Bean实例的方式:   1) 通过构造器(有参或无参)       方式:    2) 通过静态工厂方法      方式:       注: 工厂类实例没有创建   3) 通过实例工厂方法(非静态方法)      方式:                      注: 工厂类实例被创建

2016-03-06 21:08:49 644

转载 python多线程

一、Python中的线程使用:    Python中使用线程有两种方式:函数或者用类来包装线程对象。1、  函数式:调用thread模块中的start_new_thread()函数来产生新线程。如下例: import time  import thread  def timer(no, interval):      cnt = 0      while cnt10:   

2016-03-06 20:55:30 178

转载 Session与cookie

这些都是基础知识,不过有必要做深入了解。先简单介绍一下。二者的定义:当你在浏览网站的时候,WEB 服务器会先送一小小资料放在你的计算机上,Cookie 会帮你在网站上所打的文字或是一些选择,都纪录下来。当下次你再光临同一个网站,WEB 服务器会先看看有没有它上次留下的 Cookie 资料,有的话,就会依据 Cookie里的内容来判断使用者,送出特定的网页内容给你。

2016-03-06 20:33:46 192

转载 java调用python

1、http://sourceforge.net/projects/jython/下载jython包,把其中的jython.jar添加到工程目录 示例:1、摘自:http://blog.csdn.net/anbo724/article/details/66086321.在java类中直接执行python语句view plainim

2016-03-06 20:25:04 278

原创 爬虫实例抓取并download with Beautifulsoap

from bs4 import BeautifulSoupimport urllib2import urllib, os, re, time, sys#import socketdef build_request(link):# user_agent = 'Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 F

2016-03-06 19:57:48 586

原创 python爬虫小实例

from bs4 import BeautifulSoupimport urllib2import urllib, os, re, time, sys#import socketdef build_request(link):#             user_agent = 'Mozilla/5.0 (X11; U; Linux i686) Gecko/200711

2016-03-06 19:31:51 376

转载 spring 依赖注入四种方式

spring框架为我们提供了三种注入方式,分别是set注入,构造方法注入,接口注入。接口注入不作要求,下面介绍前两种方式。1,set注入  采用属性的set方法进行初始化,就成为set注入。    1)给普通字符类型赋值。[java] view plain copy print?public class U

2016-03-06 18:59:08 339

转载 spring切面编程

一、aop术语:1、切面:所有切入点的集合2、切入点:一组符合某种规则的连接点3、连接点:狭义上通俗的讲指的是某个方法4、通知:在某个连接点上的某种操作,该操作并非连接点中的操作,而是外来的操作。5、引入(Introduction):引入(在AspectJ中被称为inter-type声明)使得一个切面可以定义被通知对象实现给定的接口, 并且可以为那些对象提供

2016-03-06 14:20:39 335

转载 spring mvc理解

Spring是一个轻型容器(light-weight container),其核心是Bean工厂(Bean Factory),用以构造我们所需要的M(Model)。在此基础之上,Spring提供了AOP(Aspect-Oriented Programming, 面向层面的编程)的实现,用它来提供非管理环境下申明方式的事务、安全等服务;对Bean工厂的扩展ApplicationContext更加方便

2016-03-06 13:42:40 263

转载 spring mvc 用法

web.xml 配置:  dispatcher org.springframework.web.servlet.DispatcherServlet 加载/WEB-INF/spring-mvc/目录下的所有XML作为Spring MVC的配置文件 contextConfigLocation /WEB-INF/spring-mvc/*.xml 1 dispa

2016-03-06 12:48:40 167

转载 python and or and-or

一、and:在Python 中,and 和 or 执行布尔逻辑演算,如你所期待的一样,但是它们并不返回布尔值;而是,返回它们实际进行比较的值之一。>>> 'a' and 'b''b'>>> '' and 'b'''>>> 'a' and 'b' and 'c''c'在布尔上下文中从左到右演算表达式的值,如果布尔上下文中的所有值都为真,那么 and 返回

2016-03-05 18:46:42 474

转载 python爬虫方法小结

[代码]最基本的抓站     ?12importurllib2content=urllib2.urlopen('http://XXXX').read()2. [代码]使用代理服务器     ?1234

2016-03-05 18:45:05 280

转载 c++语言段错误

一个网友问了我一个问题,一个C程序运行出现了段错误,这个问题非常好,很多初学者都容易犯这个错误,具体代码如下:这个编译没有问题,但是运行是段错误    Segmentation fault因为你定义了一个结构体指针p,用来指向此类结构体,但是你却没有给他赋值,此时p的值为NULL,你并没有在内存中为p分配任何空间,所以p->a=1这句就会出段错误。

2016-03-05 18:43:23 1096

转载 python面试题

1.python下多线程的限制以及多进程中传递参数的方式 python多线程有个全局解释器锁(global interpreter lock),这个锁的意思是任一时间只能有一个线程使用解释器,跟单cpu跑多个程序一个意思,大家都是轮着用的,这叫“并发”,不是“并行”。 多进程间共享数据,可以使用 multiprocessing.Value 和 multiprocessing.Array 

2016-03-05 18:38:31 629

转载 spring mvc教程

一、前言二、spring mvc 核心类与接口三、spring mvc 核心流程图四、spring mvc DispatcherServlet说明五、spring mvc 父子上下文的说明六、springMVC-mvc.xml 配置文件片段讲解 七、spring mvc 如何访问到静态的文件,如jpg,js,css八、spring mvc 请求如何映射到具体的Actio

2016-03-05 13:47:43 255

转载 java垃圾回收详解

1. 垃圾回收的意义  在C++中,对象所占的内存在程序结束运行之前一直被占用,在明确释放之前不能分配给其它对象;而在Java中,当没有对象引用指向原先分配给某个对象的内存时,该内存便成为垃圾。JVM的一个系统级线程会自动释放该内存块。垃圾回收意味着程序不再需要的对象是"无用信息",这些信息将被丢弃。当一个对象不再被引用的时候,内存回收它占领的空间,以便空间被后来的新对象使用。事实上,除了释放

2016-03-05 13:22:08 217

转载 python动态类型判断是否合法

python是一种动态类型的语言。一个属性,既可以给赋值一个数字,也可以给赋值一个字符串。那么,在项目开发中,怎么才能做到检测赋值的时候输入数据的合法性呢?----------------------------------先看下面的代码[plain] view plain copy# -*- coding:utf-8 -*-  

2016-03-03 22:12:47 571

转载 Python性能小知识

有关python的几点性能建议。从python.org翻译过来的。-----------------------------------------------写在翻译之初:;使用这些方法的时候一定要测试,不要盲从的相信一种方法一定好于或者坏于另外一种。-----------------------------------------------写代码实现一个功能要有以下这

2016-03-03 22:09:33 296

转载 python描述符和装饰符

你知道property的实现原理吗? 你知道@classmethod,@staticmethod的原理吗?如果你摇头了,那么这篇文章你肯定不能错过,让我们开始吧?        在说property之前,我们需要理解描述符,因为不管property还是classmethod都是构建在描述符的基础上,那么到底什么是描述符呢?        描述符,用一句话来说,就是将某种特殊类型的类

2016-03-03 22:08:25 836

转载 Python基础知识

静态方法和类方法:静态方法和实例方法的区别主要体现在两个方面:1. 在外部调用静态方法时,可以使用"类名.方法名"的方式,也可以使用"对象名.方法名"的方式。而实例方法只有后面这种方式。也就是说,调用静态方法可以无需创建对象。2. 静态方法在访问本类的成员时,只允许访问静态成员(即静态成员变量和静态方法),而不允许访问实例成员变量和实例方法;实例方法则无此限制。3. 类方法可以

2016-03-03 21:53:51 324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除