自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (5)
  • 收藏
  • 关注

原创 selenium + Chrome自动化多线程爬取腾讯动漫漫画,项目实战

本文使用selenium + Chrome + + requests + 多进程的方式进行爬取本文只能爬取免费的漫画,对于付费的漫画没有做相关的处理本文仅供学习交流使用,严禁用于商业用途开门见山。直接上代码先进行导入模块,项目初始化from selenium import webdriverimport requestsimport os,sysimport timeclas...

2018-12-11 11:13:49 1553 1

原创 python中关于元祖的+=的谜题

python中关于元祖的+=的谜题笔者在阅读《流畅的Python》时,看见了一个非常有意思的知识点,现在和大家分享一下:由 python 内置的数据类型所知列表 属于 可变数据类型,而元祖属于不可变数据类型但是,由于数据类型可以嵌套,比如我们可以在列表里使用索引赋值或者切片赋值使它等于某个元祖t1,这在 python 当中并没有任何问题,即使再次使用列表索引赋值为另外一个元祖t2也并不冲...

2018-11-24 14:19:15 348

转载 HTTP 响应码 详细说明

HTTP 响应码 详细说明100客户端应当继续发送请求。这个临时响应是用来通知客户端它的部分请求已经被服务器接收,且仍未被拒绝。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。服务器必须在请求完成后向客户端发送一个最终响应。101服务器已经理解了客户端的请求,并将通过Upgrade 消息头通知客户端采用不同的协议来完成这个请求。在发送完这个响应最后的空行后,服务器将会...

2018-12-19 16:37:57 674

原创 Apache和Nginx的区别

Apache和Nginx的区别Nginx轻量级,采用 C 进行编写,同样的 web 服务,会占用更少的内存及资源抗并发,nginx 以 epoll and kqueue 作为开发模型,处理请求是异步非阻塞的,负载能力比 apache 高很多,而 apache 则是阻塞型的。在高并发下 nginx 能保持低资源低消耗高性能 ,而 apache 在 PHP 处理慢或者前端压力很大的情况下...

2018-12-13 21:49:57 180

转载 Python OS模块基本方法(转)

#OS模块#os模块就是对操作系统进行操作,使用该模块必须先导入模块:import os#getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹)result = os.getcwd()print(result)#chdir()改变当前工作目录os.chdir(’/home/sy’)result = os.getcwd()print(result)open...

2018-12-07 15:06:16 106

原创 python中 os模块操作文件路径

python中的os.path模块用法:dirname() 用于去掉文件名,返回目录所在的路径如:>>> import os>>> os.path.dirname('d:\\library\\book.txt')>>>'d:\\library'basename() 用于去掉目录的路径,只返回文件名如:>>...

2018-12-07 11:59:03 443

原创 爬虫IP池验证IP是否可用(简单易懂)

IP池验证IP是否可用使用requests模块演示代码具体的ip池这里就不演示了,无非就是在代理的网站爬取收集大量的ip进行存储,并没有很大的难度,这里主要演示验证IP可用性的方法。import requestsurl = "http://www.baidu.com/"proxies = {"http": "http://x.x.x.x:端口号码"}#空白位置为测试代理ip和代理ip...

2018-12-06 20:39:16 5184 2

转载 utf-8 中的一个汉字占几个字节

utf-8 中的一个汉字占几个字节占 2 个字节的:〇占 3 个字节的:基本等同于 GBK,含 21000 多个汉字占 4 个字节的:中日韩超大字符集里面的汉字,有 5 万多个1 个 utf8 数字占 1 个字节1 个 utf8 英文字母占 1 个字节在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,有的还做了个证明,大概是这样的,创建一个...

2018-12-05 14:32:04 15285 3

原创 Python爬虫框架scrapy的用途及组件认识

Python爬虫框架scrapy的用途及组件认识今天简述一下Scrapy框架的大致处理流程,以方便大家更好的理解Scrapy的运行过程.Scrapy是一个快速、高层次屏幕抓取和web抓取python爬虫框架,主要用于抓取特定web站点的信息并从页面中提取结构化的数据。由于Scrapy的框架特性,也支持开发者根据自己的需求对框架进行修改,方便开发者开发出更适合的python爬虫。除此之外,Sc...

2018-12-04 21:36:21 990

原创 Python爬虫框架Scrapy介绍加实战项目

Python爬虫框架Scrapy介绍加实战项目Scrapy框架是异步处理框架,可配置和可扩展程度非常高,是Python中使用最广泛的爬虫框架,这个框架非常的强大,几乎能用来配合任何爬虫项目。项目要求:爬取腾讯招聘上的招聘信息(链接: link.)爬取数据要求:需要爬取,职位名称、职位链接、职位类别、招聘人数、工作地点、发布时间简单介绍一下楼主的的环境 python3.6.4 + Windo...

2018-12-04 09:51:22 475

原创 Python爬虫基础策略

爬虫策略总结伪装user agentUser agent 是HTTP协议的中的一个字段, 作用是描述发出HTTP请求的终端的一些信息。 服务器通过这个字段就可以知道要访问网站的是谁了。每个浏览器,每个正规的爬虫都有其固定的user agent,因此只要将这个字段改为这些知名的user agent,就可以成功伪装了。不过,不推荐伪装知名爬虫,因为这些爬虫很可能有固定的IP,如百度爬虫。与此相...

2018-11-30 21:08:39 262

芒果数据库基本操作

菲关系型数据库MongoDB,包含数据库操作基本命令以及数据库与python交互的基本操作

2018-10-17

MySQL基本命令以及与python的交互

笔记包含sql语句基本操作以及 MySQL与python的交互,笔记仅供个人学习所用

2018-10-17

linux常用函数

linux系统常用函数,个人整理,可能不全,仅供参考和学习

2018-10-17

python3多进程多线程协程IO多路复用等

对python并发进行的笔记整理,个人所学习使用,主要包括多进程,多线程,协程,IO多路复用,进程线程通信等

2018-10-17

python3内置函数学习笔记

个人学习所用,对python3内置函数以及面向对象等思想的整理所得

2018-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除