学习内容:
# 理论知识 # 1数据来源 # 什么是爬虫 # 爬虫就是模拟人去网络上获取数据的一个程序 # 爬虫的合法性 个人隐私 多线程 50 100 # 爬虫本身没有违法这一说法 技术 工具 # 非法获取个人隐私 # robots.txt 君子协议 在网址后面加上就能看到 # 爬虫的分类 # 普通爬虫 # 局部爬虫(聚焦爬虫) # 增量爬虫 # 爬虫为什么选择python # 模块 python 有特定的模块 接口简洁 scrapy # 兼容 # 简洁 # 易上手 代码容易写 灵活 # http协议 # 超文本(html标记语言) 传输 协议 # html 网页语言 # 客户端和服务器响应 # 数据确认 # 数据渲染 客户端渲染 服务器渲染 # 请求与响应 # # html 决定网页里面有什么东西 比如是有按钮 # css 决定网页样式 比如 按钮的大小,形状,颜色,位置 # js 决定网页能够做什么 比如 点击按钮实现登录