一、前提知识
- 字符串
- 格式string
- ascii
- str与byte的转换
- str转byte
- x.encode()
- byte转str
- x.decode("utf-8")
- x.decode("gbk")
- str转byte
- HTTP请求头
- HTTP超文本传输协议
- HTTPS比HTTP更安全
- markdown语法
- - bullet point
- # 标题
- 爬虫流程
- url 发送请求获取相应-提取数据-保存
- 发送请求获取响应-提取url
- ```中间是代码内容 是代码被引用的样子```
- url形式
- scheme 如http https的协议
- host服务器IP或者域名
- path资源路径
- query-string参数 发给服务器的数据
- anchor 锚点 跳转到网页指定锚点
- HTTP请求形式
- request headers
- 带上足够的字段模拟浏览器
- 常见请求头
- 爬虫
- 通用:搜索引擎
- 聚焦:针对特定网站
-
- 动态-JS
二、爬虫基础知识
- 应用场景
- 微信-搜狗微信
- 12306-同程旅游
- 抢票-投票-短信轰炸
- 概念
- click其实是请求
- 分类
- 工作流程
- robots协议
*pagerank算法是搜索引擎排名逻辑基础