爬虫
一直要进步的小白
这个作者很懒,什么都没留下…
展开
-
jupyter notebook 操作
- 插入cell:a,b-删除:x-执行:shift+enter-tab:补全-cell模式切换:y(marker->code) m(code->marker)-打开帮助文档:shift+tab原创 2019-05-03 17:44:20 · 165 阅读 · 0 评论 -
Numpy
转自:波哥1、使用np.array()创建数组import numpy as npnp.array([1,2,3,4,5]) # 创建一个一维数组np.array([1,2,3],[4,5,6]) # 创建一个二维数组# numpy默认ndarray的所有元素类型是相同的# 如果传进来的列表中包含不同的类型,则统一为统一类型,优先级:str > float >...转载 2019-05-14 21:19:13 · 1685 阅读 · 0 评论 -
分布式爬虫
- 概念:使用多台机器组成一个分布式的机群,在机群中运行同一组程序,进行联合数据的爬取。 - 原生的scrapy是不可以实现分布式: - 原生的scrapy中的调度器不可以被共享 - 原生的scrapy的管道不可以被共享 - 如果实现分布式就必须使用scrapy-redis(模块) - 可以给原生的scrapy提供可以被共享的管道和...原创 2019-05-09 17:51:41 · 155 阅读 · 0 评论 -
scrapy知识点
1.持久化存储 - 编码流程: 1.数据解析 2.封装item类 3.将解析的数据存储到实例化好的item对象 4.提交item 5.管道接收item然后对item进行io操作 6.开启管道 - 注意事项: ...原创 2019-05-08 15:18:47 · 352 阅读 · 0 评论 -
爬虫三种数据解析方式
三种方式:正则匹配、bs4解析、xpath解析一、正则解析# 正则回顾 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 \W : 非\w \...原创 2019-05-03 21:05:32 · 859 阅读 · 1 评论 -
requests模块
必知知识点-常见请求头User-Agent 浏览器的身份标识字符串 Content-Type 请求体的MIME类型 (用于POST和PUT请求中) -常见响应头Status 通用网关接口的响应头字段,用来说明当前HTTP连接的响应状态。 -https协议的加密方式对称秘钥(容易被拦截)非对称秘钥(模拟服务器响应)证书认证(第三方机构认证的,通信...原创 2019-05-03 18:11:31 · 453 阅读 · 0 评论