- 博客(13)
- 收藏
- 关注
原创 snmp安装
linux系统安装 net-snmp http://www.cnblogs.com/VRS_technology/archive/2010/08/12/1798191.html http://blog.chinaunix.net/uid-11751120-id-3226146.html http://www.verydemo.com/demo_c167_i2390.html https://
2017-03-29 20:33:02 252
原创 详解抓取网站,模拟登陆,抓取动态网页的原理和实现
参考:http://www.oschina.net/p/mechanize http://blog.csdn.net/cnweike/article/details/8076440 http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html
2017-03-29 10:04:28 433
原创 装饰器
基础的部分能够看懂,但是感觉还是不太懂,主要是没有应用吧。 参考:http://python.jobbole.com/85393/ http://www.cnblogs.com/huxi/archive/2011/03/01/1967600.html http://www.jianshu.com/p/d68c6da1587a http://blog.csdn.net/mdl13412/art
2017-03-27 10:41:32 191
转载 scrapy抓取登陆页面
经常在爬有些网站的时候需要登录,大多数网站需要你提供一个用户名和密码,在这种情况下,需要先向网站发送一个POST请求。可以使用Scrapy的FormRequest类,这个类和Request类很相似,只是多了一个extra参数,用这个参数可以传递表单数据。要使用这个类,先导入: 方法1:from scrapy.http import FormRequest然后把start_urls替换成start_
2017-03-26 21:45:44 375
转载 scrapy爬虫不会被禁止
根据scrapy官方文档: http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned 里面的描述,要防止scrapy被ban,主要有以下几个策略。动态设置user agent 禁用cookies 设置延迟下载 使用 Google cache 使用IP地址池( Tor project 、VPN和代
2017-03-26 17:05:36 711
原创 scrapy中spider
抓取单个网页: parse(response):回调函数中response表示url中提取的内容抓取多个网页(并且链接其他网页) rules = ( ##下面是符合规则的网址,但是不抓取内容,只是提取该页的链接 #Rule(SgmlLinkExtractor(allow=('huhuuu/default.html?page=([w]+)',), )),
2017-03-25 17:31:34 301
原创 python基础模块
1.字符串类型:str类型和unicode类型 str类型采用的ASCII编码,也就是说它无法表示中文。 unicode类型采用unicode编码,能够表示任意的字符。 2.转义和原始字符 3.输入格式 raw_input():不论输入的是什么,一律认为是字符串 input():根据输入的类型判断 4.编码转换 *问题1. “UnicodeDecod
2017-03-22 10:27:37 417
原创 scrapy+mysql安装
最近重新了系统,导致原先的scrapy不能用,出现了各种问题: 问题1: Python: Windows下pip安装库出错:Microsoft Visual C++ 9.0 is required < Unable to find vcvarsall.bat http://blog.csdn.net/liwugang43210/article/details/50732920 问题2:我装了
2017-03-21 21:29:17 455
原创 csdn登陆+cookies
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I
2017-03-20 10:34:21 732
原创 BeautifulSoup和Selenium对比
参照http://blog.csdn.net/eastmount/article/details/53932775# BeautifulSoup:处理速度快,同时可以连续的利用find查找,主要用于静态网页#! /user/bin/env python#encoding=utf-8__author__ = 'chw'from bs4 import BeautifulSoupimport r
2017-03-17 20:59:52 3623
原创 xpath抓取代理IP并检测IP的有效性
#coding:utf-8import urllibimport urllib2import requestsimport timefrom bs4 import BeautifulSoupfrom lxml import etreeimport multiprocessingtest_url='http://www.baidu.com/'testStr = "wahaha"_...
2017-03-17 11:43:04 374
转载 xpath抓取代理ip
coding:utf-8import urllib import urllib2 import requests from bs4 import BeautifulSoup from lxml import etree _headers={‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/
2017-03-14 11:35:40 502
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人