python 爬虫日记

最新推荐文章于 2024-07-12 16:16:27 发布

￥好奇害死猫

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量368

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/lzt19936/article/details/102150051

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

首先是三大问题，跟搞哲学的差不多：

爬虫是什么
爬虫能做什么
怎么学爬虫

什么是爬虫（what’s the sprider）

爬虫可以做什么

怎么学习爬虫

既然是学习，就要做好付出时间和精力在这上面的思想准备；如果是新手，更应该知道接触新的知识可能会产生挫败感！没有一路坎坷，哪有累累硕果！
言归正传，学习爬虫技术，就需要知道他涉及的知识点，再根据自己的实际情况，划重点，攻克难点，总结要点；自然可以旗开得胜，无往而不胜。

先来个小例子练练手：

import requests
import BeautifulSoup

爬虫的基础知识：

URL (Universal resource Locator) 统一资源定位符，
<URL的访问形式> ： //<主机>:<端口>/<路径>
HTTP：（HyperText Transfer Protocol）超文本传输协议
HTML（HyperText Markup Language）

好了，铺垫已经做完了，接下来该讲讲原理了。
学习没有这么快的，不要着急！
速成！！！
在这里没有！
一份耕耘，一份收获。除非抢劫，侵占别人的劳动成果，据为己有，这是强盗！

Scrapy 爬虫工具常用库

install scrapy

sudo python3 -m pip install scrapy

Requests Http 库

HTTP协议入门 – 阮一峰

requests.session
requests.get
requests.post

HTTP 原理

URL

HTTP报文
请求报文（请求行，+ headers + body），响应报文(状态行+headers + body)

headers
status_code
context
content

content-Type:

text/html:
x-www-form-urlencoded: web 页面纯文本表单的提交方式
multitype/form-data 页面含有二进制文件时的提交方式
application/json 单项内容（文本或非文本都可以），用于web API 的响应或者POST/PUT 的请求

BeautifulSoup xml 和html的解析库

导入包

from bs4 import BeautifulSoup

requests and BeautifulSoup; 两个类
1. URL: 统一资源定位符；
2. 网页请求与网页解析 get and request; request and response
3. HTML 超文本标记语言标签
4. Chrome 查看源码工具
5. cookies 与 sessions 的原理，一种加密机制
6. headers 的作用

一种网络传输协议，位于TCP/IP的最顶层；
HTTP的工作方式
URL 和 HTTP报文：URL 格式：协议类型，服务器地址（和端口号），路径
报文格式: 请求报文（请求行，+ headers + body），响应报文(状态行+headers + body)
Request Method:
GET, Post, put, delete, delete, head, etc.
状态码： status code ： 2xx, 4xx, 5xx
Header 首部

Content-Type:
1. text/html:
2. x-www-form-urlencoded: web 页面纯文本表单的提交方式
3. multitype/form-data 页面含有二进制文件时的提交方式
4. application/json 单项内容（文本或非文本都可以），用于web API 的响应或者POST/PUT 的请求