自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 十一.scrapy 爬取百度相关搜索主题信息内容

一.新建项目cd 项目目录scrapy startproject baidunspidercd baiduspiderscrapy gensipider -t basic mybaiduspider news.baidu.com  二.主项目,item暂时不加,注意setting配置里面必须加入headers   user-agent,否则百度禁止爬虫爬取信息‘举例以 ,在

2017-07-20 16:46:32 866

原创 一.python 反爬虫

一.爬虫比例:二.爬虫头信息浏览器header信息:Accept 浏览器可接受的MIME类型 ,设定某种扩展名的文件,浏览器会自动使用指定应用程序来打开Accept-Charset 浏览器支持的字符编码 Accept-Encoding 浏览器知道如何解码的数据编码类型(如 gzip)。Servlets 可以预先检查浏览器是否支持gzip并可以对支持gzip的浏览器返回g

2017-07-18 09:58:45 599

原创 六.通过接口统计张江的小鸣单车数量

一.看看张江的地图张江地图呈现梯形,并且多出一块正方向二.安装小鸣单车APP,后fiddler抓包小鸣单车APP抓包可以看到每次定位https://api.mingbikes.com/common/terminal/get_near_bike,返回参数可以看到POST参数是经纬度,返回的信息都是单车的型号,SN编码,还有经纬度三.分析1.看定位区间以固定经纬度(

2017-07-18 09:43:10 881

原创 四.python面试题 内置函数instance getattr setattr hasattr

isinstance    isinstance(object, classinfo)   判断实例是否是这个类或者object是变量    classinfo 是类型(tuple,dict,int,float)  判断变量是否是这个类型     class objA:   pass     A = objA()   B = 'a','v'   

2017-07-13 15:12:30 331

转载 1000个常用的Python库和示例代码

下面是programcreek.com通过分析大量开源代码,提取出的最常用的python库。  1. sys    (4627) 2. os    (4088) 3. re    (3563) 4. time    (3195) 5. datetime    (2214) 6. random    (2135) 7. unittest 

2017-07-11 15:35:11 561

原创 十.scrapy项目 爬取主页http://cuiqingcai.com/获取所有url与title

一.分析采用crawlspider,利用rule规则提取url,并且follow=True追踪下去

2017-07-10 10:50:38 1440

原创 三.python面试题 类的三种方法

分别是类方法,静态方法,实例方法。而能让类只接调用的只有类方法,或通过一些小技巧,类也可以调用实例方法如上面例子中的调用这边顺便说明下这三中方法的区别1类方法的特点是类方法不属于任何该类的对象,只属于类本身2类的静态方法类似于全局函数,因为静态方法既没有实例方法的self参数也没有类方法的cls参数,谁都可以调用3.实例方法只属于实例,是实例化的对象才能调用#coding:utf-8

2017-07-07 13:37:40 280

转载 一.海量数据存储基础

课程大纲:1.  课程目标2.  存储服务概述3.  MySQL与MySQL分布式架构设计4.  Redis与Redis分布式架构设计5.  思考与讨论一、课程目标1.  了解存储服务概况,以及RDBMS及NoSQL的差异2.  理解MySQL、Redis、HBase基本实现机制、特性、适用场景3.  理解几种存储产品的大规模

2017-07-07 11:33:50 2402

原创 九.scrapy项目下spiders内多个爬虫同时运行

1.运行单个爬虫from scrapy.cmdline import executeexecute(('scrapy,crawl,myspd1,--nolog').split(','))2.运行多个爬虫单个爬虫是调用crawl方法来运行爬虫,可以查看crawl源码运行多个爬虫,可以直接修改crawl源码,新建一个mycrawl文件#coding:utf-8imp

2017-07-07 09:51:44 8803 2

原创 八.Scrapy 学习下Spider中间件Spider Middlewares

前面几篇文章都只是对Scrapy框架的一个初步了解,这篇文章中我打算稍微深入Scrapy框架中,通过下载保存美女图片的例子,去探究下Spider Middleware的相关知识。一,Scrapy架构概览要探究清楚Spider Middleware,首先得对Scrapy框架的整体架构有个大致的认识,如下图所示: 1,组件(Components)Scrapy 引擎(

2017-07-07 09:42:00 10446

原创 七.scrapy settings中文版

SettingsScrapy设定(settings)提供了定制Scrapy组件的方法。您可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 设定可以通过下面介绍的多种机制进行设置。设定(settings)同时也是选择当前激活的Scrapy项

2017-07-07 09:38:55 643

原创 三.Python爬虫Xpath语法与lxml库的用法

安装1pip install lxml利用 pip 安装即可XPath语法XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。节点关系(1)父(Parent)每个元素以及属性都有一个父。在下面的例子中,bo

2017-07-07 09:34:19 531

原创 六.Python爬虫Beautiful Soup的用法

1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beauti

2017-07-07 09:29:23 261

原创 二.python 面试题装饰器

这是在Python学习小组上介绍的内容,现学现卖、多练习是好的学习方式。第一步:最简单的函数,准备附加额外功能12345678# -*- coding:gbk -*-'''示例1: 最简单的函数,表示调用了两次''' def myfunc():

2017-07-06 11:40:50 1704

原创 一.python 常见面试题11题

问题1到底什么是Python?你可以在回答中与其他技术进行对比(也鼓励这样做)。答案下面是一些关键点:Python是一种解释型语言。这就是说,与C语言和C的衍生语言不同,Python代码在运行之前不需要编译。其他解释型语言还包括PHP和Ruby。Python是动态类型语言,指的是你在声明变量时,不需要说明变量的类型。你可以直接编写类似x=111和x="I'm a s

2017-07-05 09:57:54 2107

原创 六.scrapy crawlspider

一.理论逻辑图二.创建项目scrapy startproject mycrawlcd mycrawlscrapy genspider -t crawl mycrawlspider sohu.com#codoing:utf-8import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scra

2017-07-04 21:51:57 711

原创 五.python requests ip伪装,cookie登陆获取,利用cookie进行登陆

#coding:utf-8#requests ip伪装,cookie登陆获取,利用cookie进行登陆#ip伪装import requestsfrom bs4 import BeautifulSoupheader={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:51.0) Gecko/20100101 F

2017-07-04 17:48:20 6138

原创 四.python urllib2 ip伪装,cookie登陆获取,利用cookie进行登陆

#coding:utf-8#urllib2 ip伪装,cookie登陆获取,利用cookie进行登陆#urllib2 ip伪装import urllib2,socketfrom bs4 import BeautifulSoupproxy=urllib2.ProxyHandler({'http':'202.121.178.244:8080'})opener=urllib2.build_o

2017-07-04 17:46:40 1235

原创 二.python 多进程总结

一.多进程 def1.import timeimport multiprocessingdef run(data): print time.ctime(time.time()) print dataif __name__=='__main__': p1=multiprocessing.Process(target=run,args=('11',))

2017-07-04 17:28:28 703

原创 三.python threading多线程总结

threading用于提供线程相关的操作,线程是应用程序中工作的最小单元。python当前版本的多线程库没有实现优先级、线程组,线程也不能被停止、暂停、恢复、中断。threading模块提供的类:  Thread, Lock, Rlock, Condition, [Bounded]Semaphore, Event, Timer, local。threading 模块提供的常用方

2017-07-04 17:20:43 880

原创 一.python多线程类型总结

一.多线程 def#coding:utf-8import threadingimport timedef run(data1,data2): print time.strftime('%H:%M:%S',time.localtime(time.time())) print threading.currentThread() print data1,data2

2017-07-04 17:05:48 765

原创 五.scrapy CSVFeedSpider

一.何时用到数据格式为csv时,抓取数据需要用到 如http://yum.iqianyue.com/weisuenbook/pyspd/part12/mydata.csv二.如何玩打开网站是csv下载文件,下载后为用记事本打开后三.上代码scrapy startproject csvspidercd csvspiderscrapy genspider

2017-07-04 15:27:37 1567

原创 四.scrapy XMLFeedSpider用法

一:在何时才会使用到XMLFeedSpider 处理RSS订阅信息,RSS是一种信息聚合技术,是

2017-07-04 14:38:46 2078

原创 三.scrapy配置参数

一.scrapy startproject 创建项目参数配置"""C:\Users\Administrator>scrapy startproject -hUsage===== scrapy startproject [project_dir]Create new projectOptions=======--help, -h show t

2017-07-04 11:26:36 1231

原创 三.获取登陆cookie,并且利用cookie访问登陆后的界面

一.urllib2方法#coding:utf-8import cookielibimport urllib2import urllibimport requestsurl='http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LRRiM'data={'use

2017-07-03 13:45:14 6221 2

原创 二.验证伪装的代理ip是否成功

IP检查网站http://ip.filefab.com/index.php直接上代码import requestsimport urllib2from bs4 import BeautifulSoupurl='http://ip.filefab.com/index.php'import socketheader={ 'User-Agent': 'Mozilla/5.0 (Ma

2017-07-03 13:41:26 2791

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除