排序:
默认
按更新时间
按访问量

Scrapy爬虫系列笔记之十:反爬虫之动态代理,限速,登录以及验证码_by_书訢

3.2ip代理 反爬:发现某个时段访问大量增加,ip相同,需要登录才能访问 处理方式:IP代理池,利用免费资源 动态ip代理: 思路很简单直接书写中间件利用代理(同user-agent在settings文件中放了一堆的代理ip地址和端口,资源见“西刺网”) from settings i...

2018-02-07 21:38:13

阅读数:190

评论数:0

Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书訢

3.scrapy反爬虫技术 3.1User-agent 反爬:网站发现某个时段访问的user-agent都是python,直接限制访问 对应方式:user-agent模拟浏览器 方式一.settings文件中写入一个预置list,在爬虫文件中给header的user-Agent进行设置...

2018-02-07 21:36:09

阅读数:106

评论数:0

Scrapy爬虫系列笔记之八:Selenium进行动态网站爬取_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚。 2.5动态网站爬取之Selenium 2.5.1简单介绍selenum以及hello world Selenium是什么呢?百度百科: 直接上手: 1.搜索 selenium python a...

2018-02-07 21:33:40

阅读数:186

评论数:0

Scrapy爬虫系列笔记之七:ItemLoader解决代码难以维护的噩梦_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚。 2.4ItemLoader解决代码难以维护的噩梦 之前都是先通过选择器得到值,然后赋值,这样的后果就是代码很难维护而且丑 直接上itemloader item_loader = ItemLoader(...

2018-02-07 21:30:53

阅读数:90

评论数:0

Scrapy爬虫系列笔记之六:使用item以及对得到的数据进行存储以及处理_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚。 2.3将得到的数据进行存储 将一个url中的内容进行下载,并且使用选择器进行选择以后得到了内容。应该怎么将我们得到的内容进行存储呢? 步骤如下: 1.在items中定制我们自己的item cl...

2018-02-07 21:29:21

阅读数:139

评论数:0

Scrapy爬虫系列笔记之五:静态无验证网站的爬取以及xpath和css选择器_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚。 2.2静态无验证网站的爬取 静态网站的爬取十分简单,之前已经说明了start_urls中的url会通过下载器下载,返回response到parse函数中,所以我们只需要在parse函数中对respon...

2018-02-07 21:27:23

阅读数:116

评论数:0

Scrapy爬虫系列笔记之四:爬取实战之创建爬虫以及Scapy环境搭建_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚。 2.爬取数据实战 引言:第一章已经总结了python虚拟环境的创建以及一些爬虫所需要的基础知识 这一章爬取静态网站与动态网站 2.1基础操作,新建虚拟环境,同时创建爬虫 1.首先我们按照...

2018-02-07 21:25:50

阅读数:180

评论数:0

Scrapy爬虫系列笔记之三:正则表达式,url去重策略以及遍历算法_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚 1.2基础知识部分 1.2.1常见类型的服务: 静态网站 动态网站 webservice(restapi) 1.2.2正则表达式的一些应用以及python代码示例: ^s:...

2018-02-07 21:23:17

阅读数:263

评论数:0

Scrapy爬虫系列笔记之二:搭建python以及其虚拟环境_by_书訢

建议参照目录大纲,即笔记第一篇来了解大致路线后进行博客查阅。每大章的分支都十分清楚。 1.环境配置和基础知识铺垫 1.1搭建开发环境 1.1.1安装python windows: 官网下载python2和python3,进行安装,记录对应安装路径,可以改变环境变量中的地...

2018-02-07 21:21:27

阅读数:85

评论数:0

Scrapy爬虫系列笔记之一:总纲_by_书訢

这段时间因为项目需要一直在学习爬虫,担心像以前一样很多时候学习了新技术很久以后不用就忘掉很多。于是写下笔记,一方面帮助自己总结知识,以后回顾更快。另一方面帮助和我一样初次接触爬虫的人快速入门。以下是笔记大纲 1.环境配置和基础知识铺垫 1.1正则表达式 1.2深度优先和广度优先算...

2018-02-07 21:16:29

阅读数:309

评论数:0

洗澡有感

我们的一言一行都是价值观的外现与输出,世界的一切都是他人价值观体现以及对我们的输入。 --书訢 今天洗澡突然思考好多,成文记录一下。我们为人处世背后都有一套原则,有的人原则明确,有的人飘忽不定。我们喜欢和人分享生活,分享见识,有的人谈论的大多是诗歌与远方,有的人谈论大都是秦楼谢馆。我们各有爱...

2018-01-13 20:17:14

阅读数:127

评论数:0

操作系统基本概念二

进程1.什么是进程:有独立功能的程序,关于某个数据集合的一次运行过程2.进程与程序的区别:①程序是指令的集合,存在是永久的(例:.java .cpp .py 等文件) 进程有生命周期,是一个动态的概念 ②进程=程序+数据集合+PCB ③一个程序可以创建对应多个进程(例:开多个QQ) ④...

2017-12-16 22:14:30

阅读数:90

评论数:0

操作系统中基本概念一

最近整理了一下操作系统的复习,觉得有些概念还是挺棒的,和大家分享 转载请注明出处:http://blog.csdn.net/SX_csu2016sw/ 1.中断:使得CPU从当前任务改变为运行内核子程序的过程断点1:将当前进程信息保存到PCB中 断点2:根据PCB中的信息将进程恢复 2...

2017-12-16 21:43:29

阅读数:301

评论数:0

Centos6配置JDK以及Tomcat,发布web项目

若需转载请注明来处:http://blog.csdn.net/SX_csu2016sw是这样的,在这段时间因为参加一个比赛需要我来负责前端的项目,学了一下Semantic. 一个感觉好方便!于是写了一个静态网站,但是呢因为以前没有接触过前端所以想知道怎么将自己写的网站发布出去让别人可以访问。 ...

2017-12-16 21:27:17

阅读数:157

评论数:0

Android之Adapter用法总结

转载来自:http://www.cnblogs.com/devinzhang/archive/2012/01/20/2328334.html \Android之Adapter用法总结 1.概念         Adapter是连接后端数据和前端显示的适配器接口,是数据和UI(View)之间一个重要...

2017-11-17 20:16:23

阅读数:127

评论数:0

java中使用Junit进行单元测试

一.Junit单元测试: 步骤: 1.新建测试类,Junit Test Case 2.选择要进行测试的类和测试类的名字 3.通过next中进行选择需要测试的方法,然后在指定的代码位置,进行代码测试,使用assertEquals(你所期望的值,结果),(如果是符合结果的那么就会产生绿...

2017-10-14 20:53:26

阅读数:1234

评论数:0

XML三种解析方式简介以及JAVA实现

1、DOM  DOM解析XML文件时,会将XML文件的所有内容读取到内存中,然后允许您使用DOM API遍历XML树、检索所需的数据。使用DOM操作XML的代码看起来比较直观,并且,在某些方面比基于SAX的实现更加简单。但是,因为DOM需要将 XML文件的所有内容读取到内存中,所以内存的消耗比较大...

2017-10-14 20:22:31

阅读数:1147

评论数:0

XML文件以及DTD的编写

感谢阅读 转载请注明出处:http://blog.csdn.net/SX_csu2016sw1.XML:1.1XML简介: 1.1是一种可扩展标记性语言,类似于HTML,设计的宗旨是描述以传输数据,并不是用来显示数据 1.2XML标签没有预定义,需要开发人员自己定义 1.3XML文件遵循得失W3...

2017-10-14 19:58:39

阅读数:1208

评论数:0

Android广播机制

1.Android广播机制概述 Android广播分为两个方面:广播发送者和广播接收者,通常情况下,BroadcastReceiver指的就是广播接收者(广播接收器)。广播作为Android组件间的通信方式,可以使用的场景如下:1.同一app内部的同一组件内的消息通信(单个或多个线程之间); 2....

2017-10-06 18:36:51

阅读数:137

评论数:0

android的消息处理机制(图+源码分析)——Looper,Handler,Message

因为在博客园看到这篇博客写的特别好所以转载过来了,一起学习进步 原地址:http://www.cnblogs.com/codingmyworld/archive/2011/09/12/2174255.html 学习android的一大乐趣是可以通过源码学习google大牛们的设计思想。andro...

2017-10-05 18:50:25

阅读数:375

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭