![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
ALuckyPig
To be a better man!
展开
-
3.25 爬虫学习笔记(一)爬虫概念、分类、课程内容
1.爬虫概念 什么是爬虫? 程序员:写程序,然后去互联网上抓取数据的过程 互联网:网,有好多的 a 链接组成的,网的节点就是每一个 a 链接,url (统一资源定位符) 哪些语言可以实现爬虫? php,可以做,号称世界上最优美的语言,多进程、多线程支持的不好 java,也可以做爬虫,人家做的很好,最主要的竞争对手,代码臃肿,重构成本大 c、c++,是你能力的体现,不是良好的选择 python...原创 2019-03-25 14:18:09 · 233 阅读 · 0 评论 -
3.25 爬虫学习笔记(二)Http 协议详解
Http 协议 什么是协议?双方规定的传输形式 Http 协议:网站原理 应用层的协议 ftp(21)(文件传输协议) http(80) 和 https(443) ssh(22) mysql(3306) redis(6379) mongo(27017) 客户端(浏览器)发送请求(http 协议) html css js 服务端 响应内容 Python 系统:Linux Ubuntu 数据库 m...原创 2019-03-25 16:04:04 · 296 阅读 · 0 评论 -
3.25 爬虫笔记(三)fiddler 抓包工具
fiddler 一个网页的呈现,中间不止一次 http 请求,平均一个网页差不多 10-15 个 http 请求 谷歌:右键开发者工具,network ,点击请求,右边栏请求详细信息; 右边栏:request headers response query string : get 参数 form data : post 参数 fiddler : 配置 ...原创 2019-03-25 18:33:14 · 117 阅读 · 0 评论 -
3.26 爬虫笔记(四)
5. get 方式 6. 构建请求头部信息(这是反爬第一步) 伪装自己的 UA ,让服务端认为你是浏览器在上网 构建请求对象:urllib.request.Request()原创 2019-03-27 15:28:13 · 107 阅读 · 0 评论