梦亦殇-CSDN博客

原创 Flask第一阶段

Flask是轻量级的Web开发框架,只具备基本的核心内容–>视图和路由,其他的功能都需要第三方或者自己手写建立第一个Flask程序pip install flask 先下载flaskfrom flask import Flask'''__name__:表示当前的模块名字创建Flask对象，Flask会以传入模块的位置当做家目录'''app = Flask(__name_...

2019-04-27 13:48:09 98

原创 CrawlSpider和分布式爬虫

CrawlSpiderCrawlSpider它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则Rule来提供跟进链接的方便的机制，从爬取的网页结果中获取链接并继续爬取的工作．Rule参数link_extractor：是一个Link Extractor对象，用于定义需要提取的链接。callback：从li...

2018-12-09 22:24:44 205

原创 python爬虫进程and线程

多任务定义:就是操作系统可以同时运行多个任务真正的并行执行多任务只能在多核CPU上实现，但是，由于任务数量远远多于CPU核心数量，所以，操作系统也会自动把很多任务轮流调度到每个核心上执行并发：指的是任务数多余cpu核数，通过操作系统的各种任务调度算法，实现用个任务“一起”执行（实际上总有一些任务不在执行，因为切换任务的速度相当快，看上去一起执行而已）并行：指的是任务数小于等于cpu核数，...

2018-12-02 20:07:51 197 1

原创 python　爬虫　数据提取

结构化数据类似于动态加载的　先有结构后有数据json非结构化数据现有数据　后有结构正则个人感觉，正则是匹配数据最快的，但也是最难的。之前写过正则的匹配，这里就不多说了。Xpath表达式描述/从根节点开始//从匹配选择的当前节点选择文档中的节点，不考节点虑位置.选取当前节点…选取当前节点的父节点/bookstore/book[1...

2018-11-22 20:03:35 550

原创 python爬虫之requests库

requests内部封装urllib 模块　　关于 urllib 所有功能都有并且方法调用更加简单安装：pip3 install requestsrequests的参数:method: 请求方式url: 请求urlparams:　get请求的参数data: post请求的参数json: json类型数据headers: 请求头cookies: 携带cookie(Dict...

2018-11-21 20:42:26 168

原创 pyhton 爬虫入门(放弃)2

Urllib高级用法

2018-11-20 13:33:02 145

原创正则 VS JSON

Post 请求在python的urllib 模块中，Post请求的数据需要转码。栗：from urllib import parsedata = { 'name':'张三', 'age':2, 'sex':'男/女'}from_data = parse.urlencode(data).encode("utf-8")req = requset.Request(url='',head...

2018-11-19 13:37:06 236

原创 python爬虫入门

Hello,I’m Pythonpython 爬虫的好处Python:语法优美，语法简洁，开发效率高，而且Python有很多第三方库，对多任务的支持也比较友好，并且有成熟的scrapy爬虫框架和sacrpy-redis分布式策略爬虫流程确定目标网站的url发起请求，获取响应提取数据判断是否需要跟进提取新的url,执行第二步循环分类通用爬虫一般是搜索引擎的重要...

2018-11-15 19:43:41 287 1

weixin_42163525的博客