自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 Scrapy抓取360网站图片

项目名称:抓取360网站图片目标url:http://image.so.com项目描述:利用Scrapy的ImagePipeline抓取360网站的图片要利用Scrapy抓取图片,第一步还是先定义item1 # -*-coding: utf-8 -*-2 import scrapy3 4 class ImageItem(scrapy.Item):5 ...

2018-07-18 15:26:00 163

转载 scrapy异常笔记

ValueError:Missing scheme in request url:h相关URL必须存放在list中。启动爬虫没反应可能是因为name或者start_urls拼写错误(所以最好还是用genspider指令创建爬虫文件)转载于:https://www.cnblogs.com/Alfred-ou/p/9326969.html...

2018-07-18 01:22:00 141

转载 Scrapy抓取起点中文网排行榜

项目名称:qidian项目描述:利用scrapy抓取七点中文网的“完本榜”总榜的500本小说,抓取内容包括:小说名称,作者,类别,然后保存为CSV文件目标URL:https://www.qidian.com/rank/fin?style=1项目需求:  1.小说名称  2.作者  3.小说类别第一步:在shell中创建项目scrapy startpro...

2018-07-17 22:11:00 575

转载 Scrapy爬取toscrape.com书籍名称,价格

项目名称:mybooks项目URL:books.toscrape.com项目需求:  1.书籍名称  2.价格  3.保存在Excel表格中第一步:在shell中创建scrapy项目scrapy startproject mybooks第二步:创建spider文件  进入刚刚创建的项目目录,mybooks/mybooks/,在这里创建一个spi...

2018-07-17 03:03:00 497

转载 python open函数的用法笔记

file = open('apple.txt', 'w')open函数第一个参数是文件名称(包括路径),第二个参数是操作模式。  对于第二个参数有如下的选择:  w:向文件写入内容  a:追加写入,就是不修改文件原来的内容,在文件后面写入  r+:既可以读文件,又可以向文件写入内容  w+:同上  a+:同上  rb:读取二进制文件,例如图片文件...

2018-07-12 19:49:00 181

转载 python库学习笔记(os模块)

os.getcwd() :查看当前所在路径。os.chdir():改变当前工作目录。os.listdir():列举目录下的所有文件,返回一个列表。os.path.split():将路径分解为(文件夹,文件名)。os.path.getmtime(path):文件或文件夹的最后修改时间,从新纪元到访问时的秒数。os.path.getatime(path):文件或文件夹的最...

2018-05-11 19:07:00 84

转载 《python基础教程》第5章 条件、循环和其他语句 读书笔记

  第五章:条件、循环和其他语句1.  bool():bool函数能够返回参数的布尔类型True或者False。2.  相等运算符是两个等号 ==。3.  is 是同一性运算符。4.  布尔运算符:and,or,not5.  a if b else:如果b为真,则返回a,否则,返回b。6.  关键字assert,在条件必须为真的情况下,程序才能正常工作,否则出现异...

2018-05-11 00:17:00 179

转载 python库学习笔记(threading库)

import threadingthreading模块里提供的类。  1.  Thread:表示一个线程的执行的对象。  2.  Lock:锁原语对象  3.  Rlock:可重入锁对象。使单线程可以再次获得已经获得的锁。  4.  Condition:条件变量对象。能让一个线程停下来,等待其他线程满足了“某个”条件。  5.  Event:通用的条件变量。多个线...

2018-05-10 12:57:00 166

转载 爬虫脚本(抓取豆瓣电影Top250)

运行环境:Windows7,python2.7.13需求分析:爬取豆瓣电影网排行的Top250片名。步骤:  1.  抓取网站源码。  2.  利用正则表达式提取片名。  3.  把电影片名保存到文本中。  4.  重复以上3个步骤,直至Top250的片名全部保存完毕。步骤1:抓取网站源码。  分析网站的url,找出url的规律。  第一页的url:h...

2018-05-08 21:02:00 1127

转载 python库学习笔记(re库)

import re  re模块中的函数:  1.  re.compile(pattern[,flags]):根据包含正则表达式的字符串创建模式对象。  2.  re.findall(pattern,string):列出所有匹配项。返回一个列表。  3.  re.sarch(pattern,string[,flags]):只寻找出第一个匹配项。  4.  re.matc...

2018-05-07 20:50:00 147

转载 《python基础教程》第4章字典:当索引不好用时 读书笔记

  第四章 字典:当索引不好用时1.通过名字来引用值的数据结构,这种数据结构叫做映射,字典是python中唯一内建的映射类型。2.len():可以返回字典中的键-值对的数量。3.del 关键字也可以删除字典中的项。4.in 也可以检查字典中是否存在某一项。5.字典中的键可以是任意不可变的数据类型,如浮点型,元组,字符串。6.字典也可以用于格式化字符串。7.字典...

2018-05-01 21:05:00 178

转载 《python基础教程》第3章使用字符串 读书笔记

  第三章:使用字符串1.字符串格式化操作符是一个百分号 %2.只有元组和字典可以格式化一个以上的值。列表或者其他序列只会被解释为一个值。3.in操作符只能查找字符串中的单个字符。4.字符串方法:  ①find():find方法可以在一个较长的字符串中查找子串,它返回子串所在位置的最左端索引,如果没有找到则返回-1。这个方法还能提供起始点和结束点的范围(提供第二,第三...

2018-05-01 20:17:00 115

转载 《python基础教程》第2章列表和元组 读书笔记

  第二章 列表和元组1.数据结构:通过某种方式将元素集合在一起。2.python的6种内建序列:列表,元组,字符串,Unicode字符串,buffer对象,xrange对象。3.迭代:依次对序列中的元素重复做某一操作。4.序列都可以用索引来获取单个元素。5.分片可以提取序列的一部分元素,第一个索引包含在分片内,第二个索引不包含在分片内。[;]可以复制整个序列。分片可...

2018-04-28 23:09:00 109

转载 《python基础教程》第1章快速改造:基础知识 读书笔记

  第一章快速改造:基础知识1.算法:对于如何做某事的一份详细描述。2.实数(包含小数点的数)在python中被称为浮点数。3.除法:双斜线‘//’表示整除,执行除法后,得到整数部分;百分号‘%’表示取余数,执行除法后,得到余数部分;想执行普通的除法,最好加上小数点。4.幂运算符:是两个乘号 ‘**’。5.长整数就是整数后面加个字母L,可以和普通整数混合使用。6....

2018-04-28 15:42:00 151

转载 《图解HTTP》第1章了解Web及网络基础 读书笔记

  第一章:了解Web及网络基础1.Web使用一种叫做HTTP(超文本传输协议)的协议作为规范,完成一系列从客户端到服务器端的运作流程。2.三项WWW(当年WWW这个名称是一个应用程序的名称)构建技术:  ①确立文本标记语言HTML。  ②确立文档传输协议HTTP。  ③指定文档(HTML)的所在地址(URL)3.HTTP协议是TCP/IP协议族的一个子集。4...

2018-04-26 21:15:00 148

转载 《图解HTTP》第6章HTTP首部 读书笔记

1.HTTP协议中的请求/响应报文必定包含HTTP首部。2.当在报文中出现2个或以上相同的首部字段,有的会优先处理先出现的首部字段,有的会优先处理最后出现的首部字段。(因为没有明确的规范,浏览器有各自的处理逻辑)3.内容编码:这是指在不丢失实体信息的前提下所进行的压缩。4.首部字段分为四种:  ①请求首部字段:请求报文用到的字段。  ②响应首部字段:响应报文用到的字段...

2018-04-26 18:29:00 175

转载 《图解HTTP》第10章构建Web内容的技术 读书笔记

  第十章:构建Web内容的技术1.HTML(超文本标记语言):按一定语法格式写出的一个文本文档,经过浏览器解析渲染后呈现出各式各样的网页。2.CSS(层叠样式表):指定如何展现HTML各种元素的技术。3.动态HTML:使用客户端脚本语言(JavaScript),对HTML呈现的页面进行动态改造。4.DOM(文档对象模型):DOM就是操作HTML和XML的API,使用DO...

2018-04-25 12:27:00 206

转载 《图解HTTP》第9章基于HTTP的功能追加协议 读书笔记

  第九章:基于HTTP的功能追加协议1.HTTP协议的瓶颈:  ①一条连接上只可发送一个请求。  ②请求只能从客户端开始,客户端不能接受除响应意外的指令。  ③请求/响应的首部未经压缩就发送,首部信息越多延迟越大。  ④每次互相发送相同的首部造成资源的浪费。  ⑤可任意选择压缩格式,不强制压缩。2.Ajax的解决办法:每次只更新一部分页面,响应中传输的数据量...

2018-04-24 21:20:00 136

转载 《图解HTTP》第8章确认访问用户身份的认证 读书笔记

  第八章:确认访问用户身份的认证1.HTTP/1.1使用的四种验证方式:  ①BASIC认证(不常用)  ②DIGEST认证(不常用)  ③SSL客户端认证  ④FormBase认证(基于表单认证,就是平常用的账户密码登录)2.BASIC认证:就是把客户端的用户ID和密码经Base64编码后发送给服务器端,以此达到认证客户端身份。(这是明文发送,密码会被窃取。)...

2018-04-24 18:47:00 141

转载 《图解HTTP》第7章确保Web安全的HTTPS 读书笔记

  第七章:确保Web安全的HTTPS1.在HTTP协议中有可能存在信息窃听或身份伪装等安全问题。2.HTTP的缺点:  ①通信(请求报文和响应报文)使用明文(不加密),内容可能会被窃听。  ②不验证通信方的身份,因此可能遭遇伪装。  ③无法证明报文的完整性,所以可能已遭篡改。3.通信过程中,即使报文经过加密也是会被看到的(和没加密一样),只是加密后有可能让人无法...

2018-04-24 15:15:00 136

转载 《图解HTTP》第5章与HTTP协作的Web服务器 读书笔记

  第五章:与HTTP协作的Web服务器1.一台物理层面的主机,通过虚拟主机的功能,可以搭建多台虚拟服务器,即搭建多个web站点。2.当多个域名部署在同一个服务器上时(相同的ip地址),客户端发送请求报文时,必须在Host首部内指定主机域名或域名的URI。3.代理是一种应用程序,将客户端的请求报文转发给下一站服务器,将服务器端的响应报文转发给客户端。4.使用代理的理由:...

2018-04-23 22:53:00 133

转载 《图解HTTP》第4章返回结果的HTTP状态码 读书笔记

  第四章:返回结果的HTTP状态码1.HTTP状态码的作用是描述服务器端返回的请求结果。2.状态码由三位数字组成,第一位数字指定了响应的类别,分类如下:  一、1XX:接收的请求正在处理(正在处理)  二、2XX:请求正常处理完毕(成功)  三、3XX:需要进行附加操作以完成请求(重定向)  四、4XX:服务器无法处理请求(客户端出错)  五、5XX:服务器...

2018-04-23 13:18:00 247

转载 《图解HTTP》第3章HTTP报文内的HTTP信息 读书笔记

  第三章:HTTP报文内的HTTP信息1.HTTP通信过程就是从客户端发往服务器端的请求报文以及服务器端返回客户端的响应报文。2.HTTP报文是字符串文本,用于HTTP协议信息交互。3.HTTP报文结构:  一、报文首部;        ①、请求行(请求报文中):包含请求方法,请求URI,HTTP版本;或者状态行(响应报文中):包含HTTP版本,响应结果状态码,原因...

2018-04-23 11:24:00 118

转载 《图解HTTP》第2章简单的HTTP协议 读书笔记

  第二章:简单的HTTP协议1.请求的一方称为客户端,返回资源的一方称为服务器端。2.HTTP协议是无状态协议(不保留之前的请求或响应信息);为了保持状态功能,引入了cookie技术。3.告知服务器意图的HTTP方法有  GET(获取资源):请求报文中没有实体主体,(也能返回执行后的结果);  POST(传输实体主体):请求报文中有实体主体,服务器端根据实体主体返回...

2018-04-23 10:06:00 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除