![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫
python 常用爬虫工具包
嘻哈吼嘿呵
这个作者很懒,什么都没留下…
展开
-
六、Scrapy(一)| 入门案例、本地测试、迁木网爬虫
一、入门案例 1、编写爬虫 创建 test.py 文件 # encoding: utf-8 """ @author: sunxianpeng @file: test.py @time: 2019/10/26 18:37 """ import scrapy class Main(scrapy.Spider): def __init__(self): pass ...原创 2019-10-26 19:37:35 · 192 阅读 · 0 评论 -
五、简单爬虫示例
目录 一、爬取下厨房网站首页图片 二、爬取迁木网示例 1、单线程 2、多线程 3、整合Redis,简单分布式 一、爬取下厨房网站首页图片 # encoding: utf-8 """ @author: sunxianpeng @file: 58spider.py @time: 2019/10/25 19:19 """ import os import requests from r...原创 2019-10-26 18:44:49 · 402 阅读 · 0 评论 -
四、Python3 lxml和Xpath
目录 一、XPath常用规则 1、读取文本解析节点 2、读取HTML文件进行解析 3、获取所有节点 4、获取子节点 5、获取父节点 6、属性匹配 7、文本获取 8、属性获取 9、属性多值匹配 10、多属性匹配 11、XPath中的运算符 12、按序选择 13、节点轴选择 二、案例应用:抓取TIOBE指数前20名排行开发语言 lxml是python的一个解析库,支持...转载 2019-10-25 00:35:26 · 665 阅读 · 0 评论 -
三、Python3 BeautifulSoup4
目录 一、基本介绍 二、BeautifulSoup的基本用法 1、节点选择器(tag) 2、方法选择器 3、CSS选择器 4、tag修改方法 5、解析部分文档,可以使用SoupStrainer类来创建一个内容过滤器,它接受同搜索方法相同的参数 6、Beautiful Soup异常处理: 一、基本介绍 Beautiful Soup是python的一个HTML或XML的解析库,我们...转载 2019-10-24 01:55:00 · 410 阅读 · 0 评论 -
HTTP中的请求和响应解析
目录 一、用于HTTP请求中的常用请求头字段 1. 请求报文 二、HTTP响应 1、状态行: 2、状态码: 3、多个响应头: 4、三种禁止浏览器缓存的头字段: 5、常见状态码解析 6、 前两行称为状态行 7 、其余部分称为应答实体 8、常见问题 三. Cookie 一、用于HTTP请求中的常用请求头字段 Accept:用于高速服务器,客户机支持的数据类型 Accept...转载 2019-10-23 00:10:28 · 951 阅读 · 0 评论 -
二、python3之模块urllib
阅读目录 1、urllib.request.urlopen() 2、urllib.request.Requset() 3、urllib.request的高级类 4、异常处理 5、解析链接 6、分析Robots协议 urllib是python内置的HTTP请求库,无需安装即可使用,它包含了4个模块: request:它是最基本的http请求模块,用来模拟发送请求 error:异常处理...转载 2019-10-24 23:29:13 · 225 阅读 · 0 评论 -
一、requests基本使用
# -*- coding: utf-8 -*- import requests print("=============== GET请求==================") # url = "http://httpbin.org/" r = requests.get(url+"get") print(r.status_code, r.reason) print(r.text) # 带参数 G...原创 2019-10-17 00:52:31 · 123 阅读 · 0 评论