2017年03月_chang___hong

原创 snmp安装

linux系统安装 net-snmp http://www.cnblogs.com/VRS_technology/archive/2010/08/12/1798191.html http://blog.chinaunix.net/uid-11751120-id-3226146.html http://www.verydemo.com/demo_c167_i2390.html https://

2017-03-29 20:33:02 252

原创详解抓取网站，模拟登陆，抓取动态网页的原理和实现

参考：http://www.oschina.net/p/mechanize http://blog.csdn.net/cnweike/article/details/8076440 http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html

2017-03-29 10:04:28 433

原创装饰器

基础的部分能够看懂，但是感觉还是不太懂，主要是没有应用吧。参考：http://python.jobbole.com/85393/ http://www.cnblogs.com/huxi/archive/2011/03/01/1967600.html http://www.jianshu.com/p/d68c6da1587a http://blog.csdn.net/mdl13412/art

2017-03-27 10:41:32 191

转载 scrapy抓取登陆页面

经常在爬有些网站的时候需要登录，大多数网站需要你提供一个用户名和密码，在这种情况下，需要先向网站发送一个POST请求。可以使用Scrapy的FormRequest类，这个类和Request类很相似，只是多了一个extra参数，用这个参数可以传递表单数据。要使用这个类，先导入：方法1：from scrapy.http import FormRequest然后把start_urls替换成start_

2017-03-26 21:45:44 375

转载 scrapy爬虫不会被禁止

根据scrapy官方文档： http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned 里面的描述，要防止scrapy被ban，主要有以下几个策略。动态设置user agent 禁用cookies 设置延迟下载使用 Google cache 使用IP地址池（ Tor project 、VPN和代

2017-03-26 17:05:36 711

原创 scrapy中pipelines

pipelines主要用于抓取的内容保存

2017-03-26 11:48:47 426

原创 scrapy中spider

抓取单个网页： parse(response)：回调函数中response表示url中提取的内容抓取多个网页(并且链接其他网页) rules = ( ##下面是符合规则的网址,但是不抓取内容,只是提取该页的链接 #Rule(SgmlLinkExtractor(allow=('huhuuu/default.html?page=([w]+)',), )),

2017-03-25 17:31:34 301

原创 python基础模块

1.字符串类型：str类型和unicode类型 str类型采用的ASCII编码，也就是说它无法表示中文。 unicode类型采用unicode编码，能够表示任意的字符。 2.转义和原始字符 3.输入格式 raw_input():不论输入的是什么，一律认为是字符串 input():根据输入的类型判断 4.编码转换 *问题1. “UnicodeDecod

2017-03-22 10:27:37 417

原创 scrapy+mysql安装

最近重新了系统，导致原先的scrapy不能用，出现了各种问题：问题1： Python： Windows下pip安装库出错：Microsoft Visual C++ 9.0 is required < Unable to find vcvarsall.bat http://blog.csdn.net/liwugang43210/article/details/50732920 问题2：我装了

2017-03-21 21:29:17 455

原创 csdn登陆+cookies

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I

2017-03-20 10:34:21 732

原创 BeautifulSoup和Selenium对比

参照http://blog.csdn.net/eastmount/article/details/53932775# BeautifulSoup：处理速度快，同时可以连续的利用find查找，主要用于静态网页#! /user/bin/env python#encoding=utf-8__author__ = 'chw'from bs4 import BeautifulSoupimport r

2017-03-17 20:59:52 3623

原创 xpath抓取代理IP并检测IP的有效性

#coding:utf-8import urllibimport urllib2import requestsimport timefrom bs4 import BeautifulSoupfrom lxml import etreeimport multiprocessingtest_url='http://www.baidu.com/'testStr = "wahaha"_...

2017-03-17 11:43:04 374

转载 xpath抓取代理ip

coding:utf-8import urllib import urllib2 import requests from bs4 import BeautifulSoup from lxml import etree _headers={‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/

2017-03-14 11:35:40 502

chang___hong的专栏