自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Yelbosh的专栏

我的手心是空空的

  • 博客(21)
  • 资源 (5)
  • 收藏
  • 关注

原创 浅谈设计模式在建安系统中的应用

东湖项目接近尾声,一直想写一下对于该系统设计的感悟,今天就在这里写一写吧。         首先,评价一个系统的好坏,在我的心里有三个标准:第一是可扩展性,我把它放在第一位,因为没有哪个项目是不需要不断修改的,这是事物客观发展的必然结果,因为从哲学上讲,事物的变化是一直发生着的,所以系统的不断扩展是真理客观决定的结果。第二是稳定性,当然如果你从用户的角度出发,这显然才是最重要的,不过谁让我们是

2014-03-31 14:12:57 1196

转载 解决python连接mysql,UTF-8乱码问题

1。 Python文件设置编码 utf-8 (文件前面加上 #encoding=UTF-8)    2。 MySQL数据库charset=utf8     3。 Python连接MySQL时加上参数 charset="utf8" 测试环境: CentOS 6.2 / MySQL-5.1 / python-2.6.6   (MySQL server 默认编码以及测试用数据库的编码都是

2014-03-29 22:17:45 9344

转载 设置Mysql字符集

数据库中中文乱码解决:设置server级,db级,table级使用的字符集为utf8。设置方法:查看mysql字符集状态:先使用客户端工具mysql登录: [plain] view plaincopymysql> status  --------------  mysql  Ver 14.14 Dist

2014-03-29 14:43:10 940

转载 scrapy采集数据时为每个请求随机分配user-agent

通过这个方法可以每次请求更换不同的user-agent,防止网站根据user-agent屏蔽scrapy的蜘蛛首先将下面的代码添加到settings.py文件,替换默认的user-agent处理模块DOWNLOADER_MIDDLEWARES = {    'scraper.random_user_agent.Random

2014-03-19 17:09:47 3924

转载 用Scrapy抓取豆瓣小组数据(三)

接着上篇博客《用Scrapy抓取豆瓣小组数据(三)》,http://my.oschina.net/chengye/blog/124162处理抓取的数据我抓取了豆瓣一千多个小组的首页,获取的内容包括名称,成员数目,小组链接以及相关友情小组和推荐小组。Scrapy导出的数据格式可以是json/xml/csv等,我这边用了json格式,每个小组数据的格式如下:

2014-03-19 17:05:09 2823

转载 用Scrapy抓取豆瓣小组数据(二)

接着上篇博客《用Scrapy抓取豆瓣小组数据(一)》http://my.oschina.net/chengye/blog/124157在scrapy中怎么让Spider自动去抓取豆瓣小组页面1,引入Scrapy中的另一个预定义的蜘蛛CrawlSpider1from scrapy.contrib.spiders import CrawlSpid

2014-03-19 17:03:20 2321

转载 用Scrapy抓取豆瓣小组数据(一)

最近在coursera.org(在线学习平台)上学SNA(Social Network Analysis,社交网络分析)。有兴趣的同学可以去看一眼:https://class.coursera.org/sna-002/,课程讲的很有意思,等回头我上完全部课程打算再写下详细总结和思考。为什么要抓取豆瓣小组数据?  课程要做一个带编程的final project,大概内容就是自己找一个

2014-03-19 17:01:34 7813 4

转载 【scrapy】使用方法概要(四)(转)

【请初学者作为参考,不建议高手看这个浪费时间】 上一篇文章,我们抓取到了一大批代理ip,本篇文章介绍如何实现downloaderMiddleware,达到随即使用代理ip对目标网站进行抓取的。 抓取的目标网站是现在炙手可热的旅游网站 www.qunar.com, 目标信息是qunar的所有seo页面,及页面的seo相关信息。qunar并没有一般网站具有的 robots.txt文

2014-03-19 16:49:27 6785 1

转载 【scrapy】使用方法概要(三)(转)

请初学者作为参考,不建议高手看这个浪费时间】 前两篇大概讲述了scrapy的安装及工作流程。这篇文章主要以一个实例来介绍scrapy的开发流程,本想以教程自带的dirbot作为例子,但感觉大家应该最先都尝试过这个示例,应该都很熟悉,这里不赘述,所以,将用笔者自己第一个较为完整的抓取程序作为示例作为讲解。 首先,要大规模抓取一个网站的内容,必要的资源便是代理ip这一资源,如果不使用代

2014-03-19 16:45:18 1856 1

转载 Duplicate Elimination in Scrapy(转)

之前介绍 Scrapy 的时候提过 Spider Trap ,实际上,就算是正常的网络拓扑,也是很复杂的相互链接,虽然我当时给的那个例子对于我感兴趣的内容是可以有一个线性顺序依次爬下来的,但是这样的情况在真正的网络结构中通常是少之又少,一但链接网络出现环路,就无法进行拓扑排序而得出一个依次遍历的顺序了,所以 duplicate elimination 可以说是每一个 non-trivial 的

2014-03-19 16:41:19 1789

转载 scrapy缺省设置

BOT_NAME = ‘scrapybot’CLOSESPIDER_TIMEOUT = 0 CLOSESPIDER_PAGECOUNT = 0 CLOSESPIDER_ITEMCOUNT = 0 CLOSESPIDER_ERRORCOUNT = 0COMMANDS_MODULE = ”CONCURRENT_ITEMS = 100CONCURRENT_RE

2014-03-19 16:30:42 8705

转载 搜索引擎爬虫蜘蛛的User-Agent收集

百度爬虫    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)google爬虫    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)    * Googlebot/2.1 (+http://www.googleb

2014-03-19 15:05:05 7255

转载 web性能优化(三)反爬虫策略 [复制链接]

[文章作者:狂奔的鹿(陆松林)本文版本:v1.0  转载请注明原文链接:http://www.cnblogs.com/dynamiclu/]    反爬虫策略,表面上看似乎跟WEB系统优化没有关系,经过分析,发现该策略是可以归到WEB性能优化的系列之中。    通过分析apache日志发现,某系统40%的带宽和服务器资源都消耗在爬虫上,如果除去10%-15%搜索引擎的爬虫,做好反爬

2014-03-19 14:37:55 1292

转载 web性能优化(三)反爬虫策略 [复制链接]

2014-03-19 14:37:06 960

转载 ubuntu下ATI/Intel双显卡切换的方法

装了ubuntu 12.04 32bit和win7 64bit双系统后,win7基本不用了,工作全部在win7下做。但是,存在一个问题:运行ubuntu时,笔记本过热。        由于笔记本是双显卡(HD5650和Intel I5 480集成显卡),所以怀疑是双显卡切换的问题,于是在ubuntu论坛上找到了相关帖子--《(ATI显卡菜鸟x86闭源帖---A鸟都去学雷锋)总结Ubuntu

2014-03-18 16:45:23 1779

转载 scrapy安装——Ubuntu

安装scrapy转自【http://blog.csdn.net/ljsbuct/article/details/7196048】方法一1. curl -s http://archive.scrapy.org/ubuntu/archive.key | sudo apt-key add -                 2.修改source.listsud

2014-03-18 15:27:41 1181

转载 Python文件夹与文件的操作

最近在写的程序频繁地与文件操作打交道,这块比较弱,还好在百度上找到一篇不错的文章,这是原文传送门,我对原文稍做了些改动。有关文件夹与文件的查找,删除等功能 在 os 模块中实现。使用时需先导入这个模块,导入的方法是:import os一、取得当前目录s = os.getcwd()# s 中保存的是当前目录(即文件夹)比如运行abc.py,那么

2014-03-16 14:46:14 726

转载 Fiddler 教程

Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许你监视,设置断点,甚至修改输入输出数据. 使用Fiddler无论对开发还是测试来说,都有很大的帮助。阅读目录Fiddler的基本介绍Fiddler的工作原理同类的其它工具Fiddler如何捕获Firefox的会话Firefox 中使用Fiddler插件Fiddler如何捕获H

2014-03-13 20:29:54 751

转载 用scrapy进行网页抓取

最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html要想利用scrapy来抓取网页信息,需要先新建一个工程,scrapy startproject myproject工程建立好后,会有一个myproject/myproject的子目录,里面有item.py(由于你

2014-03-13 16:08:47 1498 1

转载 scrapy抓取ajax请求的网页

在上一篇博客http://zhouxi2010.iteye.com/blog/1450177中介绍了用scrapy抓取网页,但是只能抓取普通html中的链接,对于ajax请求的网页却抓不到,但是实际应用中ajax请求又是十分普遍的,所以这里在记录下抓取ajax页面的方法.仍然是spiders/book.py:Java代码  class B

2014-03-13 16:06:28 13572 2

原创 python中使用urllib下载网站图片

在python中可以使用urllib方便的实现图片和flash下载,测试:import urllib  url = "http://www.udooo.com/cooperate/qq/images/081128/left.swf"  path = "c:/spider/left.swf"  data = urllib.urlopen(url).read()  f = fi

2014-03-11 16:29:35 1962

git基本原理与常用命令

git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令git基本原理与常用命令

2017-09-06

git原理与命令

git原理与命令,描述git的所有的原理等发的卡房间看到父发阿卡丽的实践法拉盛达芙妮git原理与命令,描述git的所有的原理等发的卡房间看到父发阿卡丽的实践法拉盛达芙妮git原理与命令,描述git的所有的原理等发的卡房间看到父发阿卡丽的实践法拉盛达芙妮git原理与命令,描述git的所有的原理等发的卡房间看到父发阿卡丽的实践法拉盛达芙妮git原理与命令,描述git的所有的原理等发的卡房间看到父发阿卡丽的实践法拉盛达芙妮

2017-09-04

中缀表达式计算C++实现

中缀表达式计算C++实现

2013-01-16

SSD4选择题做题工具 windows 7版本

一个比较好用的ssd4刷体的工具哦,享用的话就用一下,不想用的话就算了,反正是随便写的,写着玩意晚哈哈

2012-05-26

violet UML编辑器

很简洁的uml图形编辑工具,这是一款很好的工具哦亲

2012-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除