自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 snmp安装

linux系统安装 net-snmp http://www.cnblogs.com/VRS_technology/archive/2010/08/12/1798191.html http://blog.chinaunix.net/uid-11751120-id-3226146.html http://www.verydemo.com/demo_c167_i2390.html https://

2017-03-29 20:33:02 252

原创 详解抓取网站,模拟登陆,抓取动态网页的原理和实现

参考:http://www.oschina.net/p/mechanize http://blog.csdn.net/cnweike/article/details/8076440 http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html

2017-03-29 10:04:28 433

原创 装饰器

基础的部分能够看懂,但是感觉还是不太懂,主要是没有应用吧。 参考:http://python.jobbole.com/85393/ http://www.cnblogs.com/huxi/archive/2011/03/01/1967600.html http://www.jianshu.com/p/d68c6da1587a http://blog.csdn.net/mdl13412/art

2017-03-27 10:41:32 191

转载 scrapy抓取登陆页面

经常在爬有些网站的时候需要登录,大多数网站需要你提供一个用户名和密码,在这种情况下,需要先向网站发送一个POST请求。可以使用Scrapy的FormRequest类,这个类和Request类很相似,只是多了一个extra参数,用这个参数可以传递表单数据。要使用这个类,先导入: 方法1:from scrapy.http import FormRequest然后把start_urls替换成start_

2017-03-26 21:45:44 375

转载 scrapy爬虫不会被禁止

根据scrapy官方文档: http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned 里面的描述,要防止scrapy被ban,主要有以下几个策略。动态设置user agent 禁用cookies 设置延迟下载 使用 Google cache 使用IP地址池( Tor project 、VPN和代

2017-03-26 17:05:36 711

原创 scrapy中pipelines

pipelines主要用于抓取的内容保存

2017-03-26 11:48:47 426

原创 scrapy中spider

抓取单个网页: parse(response):回调函数中response表示url中提取的内容抓取多个网页(并且链接其他网页) rules = ( ##下面是符合规则的网址,但是不抓取内容,只是提取该页的链接 #Rule(SgmlLinkExtractor(allow=('huhuuu/default.html?page=([w]+)',), )),

2017-03-25 17:31:34 301

原创 python基础模块

1.字符串类型:str类型和unicode类型 str类型采用的ASCII编码,也就是说它无法表示中文。 unicode类型采用unicode编码,能够表示任意的字符。 2.转义和原始字符 3.输入格式 raw_input():不论输入的是什么,一律认为是字符串 input():根据输入的类型判断 4.编码转换 *问题1. “UnicodeDecod

2017-03-22 10:27:37 417

原创 scrapy+mysql安装

最近重新了系统,导致原先的scrapy不能用,出现了各种问题: 问题1: Python: Windows下pip安装库出错:Microsoft Visual C++ 9.0 is required < Unable to find vcvarsall.bat http://blog.csdn.net/liwugang43210/article/details/50732920 问题2:我装了

2017-03-21 21:29:17 455

原创 csdn登陆+cookies

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I

2017-03-20 10:34:21 732

原创 BeautifulSoup和Selenium对比

参照http://blog.csdn.net/eastmount/article/details/53932775# BeautifulSoup:处理速度快,同时可以连续的利用find查找,主要用于静态网页#! /user/bin/env python#encoding=utf-8__author__ = 'chw'from bs4 import BeautifulSoupimport r

2017-03-17 20:59:52 3623

原创 xpath抓取代理IP并检测IP的有效性

#coding:utf-8import urllibimport urllib2import requestsimport timefrom bs4 import BeautifulSoupfrom lxml import etreeimport multiprocessingtest_url='http://www.baidu.com/'testStr = "wahaha"_...

2017-03-17 11:43:04 374

转载 xpath抓取代理ip

coding:utf-8import urllib import urllib2 import requests from bs4 import BeautifulSoup from lxml import etree _headers={‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/

2017-03-14 11:35:40 502

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除