Python爬虫
python 常用爬虫工具包
嘻哈吼嘿呵
这个作者很懒,什么都没留下…
展开
-
六、Scrapy(一)| 入门案例、本地测试、迁木网爬虫
一、入门案例1、编写爬虫创建 test.py 文件# encoding: utf-8"""@author: sunxianpeng@file: test.py@time: 2019/10/26 18:37"""import scrapyclass Main(scrapy.Spider): def __init__(self): pass ...原创 2019-10-26 19:37:35 · 214 阅读 · 0 评论 -
五、简单爬虫示例
目录一、爬取下厨房网站首页图片二、爬取迁木网示例1、单线程2、多线程3、整合Redis,简单分布式一、爬取下厨房网站首页图片# encoding: utf-8"""@author: sunxianpeng@file: 58spider.py@time: 2019/10/25 19:19"""import osimport requestsfrom r...原创 2019-10-26 18:44:49 · 423 阅读 · 0 评论 -
四、Python3 lxml和Xpath
目录一、XPath常用规则1、读取文本解析节点2、读取HTML文件进行解析3、获取所有节点4、获取子节点5、获取父节点6、属性匹配7、文本获取8、属性获取9、属性多值匹配10、多属性匹配11、XPath中的运算符12、按序选择13、节点轴选择二、案例应用:抓取TIOBE指数前20名排行开发语言lxml是python的一个解析库,支持...转载 2019-10-25 00:35:26 · 772 阅读 · 0 评论 -
三、Python3 BeautifulSoup4
目录一、基本介绍二、BeautifulSoup的基本用法1、节点选择器(tag)2、方法选择器3、CSS选择器4、tag修改方法5、解析部分文档,可以使用SoupStrainer类来创建一个内容过滤器,它接受同搜索方法相同的参数6、Beautiful Soup异常处理:一、基本介绍Beautiful Soup是python的一个HTML或XML的解析库,我们...转载 2019-10-24 01:55:00 · 450 阅读 · 0 评论 -
HTTP中的请求和响应解析
目录一、用于HTTP请求中的常用请求头字段1. 请求报文二、HTTP响应1、状态行:2、状态码:3、多个响应头:4、三种禁止浏览器缓存的头字段:5、常见状态码解析6、 前两行称为状态行7 、其余部分称为应答实体8、常见问题三. Cookie一、用于HTTP请求中的常用请求头字段Accept:用于高速服务器,客户机支持的数据类型Accept...转载 2019-10-23 00:10:28 · 1003 阅读 · 0 评论 -
二、python3之模块urllib
阅读目录1、urllib.request.urlopen() 2、urllib.request.Requset() 3、urllib.request的高级类 4、异常处理 5、解析链接 6、分析Robots协议urllib是python内置的HTTP请求库,无需安装即可使用,它包含了4个模块:request:它是最基本的http请求模块,用来模拟发送请求error:异常处理...转载 2019-10-24 23:29:13 · 252 阅读 · 0 评论 -
一、requests基本使用
# -*- coding: utf-8 -*-import requestsprint("=============== GET请求==================")#url = "http://httpbin.org/"r = requests.get(url+"get")print(r.status_code, r.reason)print(r.text)# 带参数 G...原创 2019-10-17 00:52:31 · 146 阅读 · 0 评论
分享