自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 scrapy基础知识+xpath基础知识

scrapy的框架如下:其中:scrapy-engine: 为scapy的引擎scheduler:调度器(数据队列,将scrapy-engine传过来的request排队等待请求)downloader:下载器spiders:爬虫的解析器item-pipeline:数据管道middlewares:中间件(编写IP代理中间件,user-agent中间件等)scrapy创建项目1.建...

2020-05-03 23:04:27 1129

原创 关于python3 encode(),decode(),以及出现\xe5\xad\xa6\xe4\xb9\xa0python如何解决

重点:1.python3与python2不同,python3是默认采用utf-8编码的,因此当使用encode(),decode()这两个函数的时候,其实默认是使用了encode(“utf-8”),decode(“utf-8”)2.encode()是相对于字符串使用的方法,只有字符串数据才可以使用encode(),返回的是一个bytes类型的Unicode编码如:s = "学习python...

2020-04-30 13:02:41 1984

原创 关于python多线程以及线程池的使用2 (ThreadPoolExecutor)

前一篇记录了python threading的学习及使用:https://blog.csdn.net/qq_43906274/article/details/105716179但听说实际开发应用中线程池以及异步I/O才是用得最多的,就这几天的学习做一下记录。脑图如下:Exectuor 提供了如下常用方法:submit(fn, *args, **kwargs):将 fn 函数提交给线程池...

2020-04-29 21:47:28 878

原创 关于python多线程以及线程池的使用(GIL/threading/Lock/Condition/semaphore/ThreadPoolExecutor/map/as_complete/wait)

1.GIL&threadingGIL的认识:同一时间一个进程里只允许一个线程运行,只能在单个CPU上运行,无法将多个线程映射到CPU上执行1.这与python的解释器cpython有关,与语言本身无关2.多个进程可以利用多个CPU,但进程内的多个线程也只能利用单个CPU3.对与IO密集型操作(如数据保存,数据请求),使用多线程优于多进程,因为对资源的消耗更小4.对与CPU密集型...

2020-04-24 02:23:52 863 1

原创 关于python静态方法 @staticmethod,类方法:@classmethod以及@property的使用

类的静态方法:@staticmethod解释:静态方法是类中的函数,不需要实例化使用,可直接 类名.静态方法名使用。静态方法主要是用来存放逻辑性的代码,逻辑上属于类,但是和类本身没有关系,也就是 说在静态方法中,不会涉及到类中的属性和方法的操作。可以理解为,静态方法是个独立的、单纯的函数,它仅仅托管于某个类的名称空间中,便于使用和维护。写法:加入关键字@staticmethod,方法中不...

2020-04-18 23:15:29 226

原创 爬虫基础2:多线程爬取51job职位

学习记录:1.requests思维脑图,记录基础用法2.python多线程threading模块3.队列模块Queue# -*- coding=utf-8 -*-import timeimport requestsimport threadingfrom multiprocessing import Queuefrom lxml import etreeclass Cr...

2020-04-17 23:07:28 317

原创 爬虫基础:爬取百度贴吧-猫吧标题,详情页url,详情页图片url,下载图片

学习总结:1.经试验,无需定义请求头headers也能爬取到数据2.网站编码使用utf-8,试验时要了解清楚网站编码,以免数据乱码,返回数据可以使用response.encoding='网站编码’指定编码类型3.图片数据的保存需使用二进制编码保存:response.content,使用python with open语句即可保存图片# -*- coding=utf-8 -*-import...

2020-04-16 23:49:18 254

原创 记录学习爬虫,进阶大数据,各阶段需掌握技能

#大数据方向(很艰难哦)1.python基础(语法,函数,模块,面向对象,多线程)2.python进阶(一切皆对象,魔法函数,垃圾回收,迭代器/生成器,元类编程,socket网络编程,协程,异步IO,并发编程)3.三大主流数据库(MySQL,mongodb,redis)4.爬虫基础(requests,JavaScript,CSS,html,xpath,bs4,正则)5.爬虫进阶(sele...

2020-04-15 12:37:54 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除