【数据挖掘与分析】python网络爬虫学习及实践记录 | part01-爬虫前奏

云胡实验室

于 2019-06-03 15:23:04 发布

阅读量350

点赞数 1

分类专栏：学编程使我头秃【学记汇总】数据挖掘与分析文章标签：爬虫学习新技术入坑项目准备填坑

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28930251/article/details/90751351

版权

学编程使我头秃【学记汇总】同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

数据挖掘与分析

29 篇文章 0 订阅

订阅专栏

拖拖拉拉终于开了新坑，三月份就下好的资料一直拖到现在才动手实践，充分说明懒拖本质，再谴责下去没有意义，交代一下学习方式，每日跟视频做笔记，上手实战代码，复盘梳理。论文点及选体量目标合适的小练手项目。争取六月底前，更完这波视频吧。

1.爬虫前奏：

·爬虫案例：搜索引擎（爬别人的网页-收录）/伯乐在线（爬别人的文章）/惠惠购物助手（爬取历史价格-进行对比）/数据分析与研究（各行业趋势）/抢票软件

·介绍网络爬虫-模拟请求人类请求网站行为的程序+可自动请求网页+抓取数据+提取有价值信息

·通用/聚焦爬虫

前者搜索引擎（抓取所有网页-形成互联网镜像）|后者特定需求，筛选内容，只抓取需求相关的网页信息

·爬虫技术选择-python

-PHP 多线程、异步支持不太好，并发处理能力弱

-Java 本身语言笨重，代码量大，重构成本高

-C/C++ 学习开发成本高

-python Scrapy+Scrapy-redis

*总结：爬虫需要速度效率高、经常修改采集代码、HTTP请求模块和HTML解析模块要求高~

针对本视频准备工具：python3.6+Pycharm 2017 pro（非com版本） +虚拟环境（virtualenv/virtualenvwrapper）

2.http协议和chrome抓包工具

·http协议和https协议：

前者超文本传输协议发布接收的方法服务器端口为 80 | 后者是前者的加密版本，加了SSL层，端口为 443 端口

·浏览器发http请求的过程

1.地址URL→，浏览器向HTTP服务器发送HTTP请求（Get/Post两种方法）

2.输入地址URL→浏览器发Request请求获取该网址的html文件，服务器吧Response文件对象返回给浏览器

3.浏览器分析Response中的HTML，发现其中引用了资源文件（images/CSS/JS等），再次发送Request去获取这些资源文件

4.文件资源下载成功后，网页根据HTML语法结构显示出来。

·URL详解

Uniform Resource Locator -统一资源定位符结构：

e.g:python_百度搜索的网址就是

https://www.baidu.com/s?wd=python&rsv_spt=1...（后部分省略）

https是代表协议，www.baidu.com是域名系统DNS绑定了IP，端口省略了，path就是s，wd=python就是查询字符串，关键字为python。

·锚点介绍，百度百科里面，加#

·补充：在浏览器中请求url，会进行编码，除英文字母/数字/部分符号外，其他全部使用‘%+十六进制码值’进行编码。

常用请求方法-post/get（有八种，仅介绍常用两种）

+get 获取数据，不对服务器资源产生任何影响

+post 发送数据（登录）/上传文件等，对服务器资源产生影响

具体查看爬取对象的-反爬虫机制

·请求头常见参数：向服务器发送一个请求，数据分三部分（放入url-数据放入body+post请求中-数据放入head中）

User-Agent：默认为python，浏览器名称，设置为浏览器的值，伪装爬虫

Referer：请求是从哪个url过来的

Cookie：http协议无状态，发送两次请求无法查看两次是否来自同一个，用cookie作为标识，登录才能访问的网站需要发送cookie信息

·常见响应状态码：

301举例：jingdong-jd

谷歌抓包工具

老师一波秀，get了几个小操作，这里不展示了。主要是谷歌浏览器，按F12，然后切换标签内的一些东西。

这一堂课就到这里了。明天可以回顾一下，然后再跟下一部分的课。

云胡实验室

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。