随着网络技术的发展,数据变得越来越值钱,如何有效提取这些有效且公开的数据并利用这些信息变成了一个巨大的挑战。从而爬虫工程师、数据分析师、大数据工程师的岗位也越来越受欢迎。爬虫是 Python 应用的领域之一。
一、Python 开发环境的搭建
Python 目前流行 Python 2.x 与 Python 3.x 两个版本,由于 Python 2 只会维护到 2020 年,因此这里建议使用 python 3 来作为编程环境。
二、什么是爬虫?
网络爬虫:是指按照一定的规则,自动抓取万维网信息的程序或者脚本,从中获取大量的信息。
爬虫的作用主要有以下几点:
市场分析:电商分析、商圈分析、一二级市场分析等;
市场监控:电商、新闻、房源监控、票房预测、股票分析等;
商机发现:招投标情报发现、客户资料发掘、企业客户发现等;
数据分析:对某个 App 的下载量跟踪、用户分析、评论分析,虚拟货币详情分析……
三、爬虫基础知识补充
1. 网址的构成
网站的网址一般由协议+域名+加页面构成,如 https://auction.jd.com/home.html,域名一般是固定不变的,能改变的则是页面(home.html),在爬虫的过程中我们所需要解析的就是自己编写的不同页面的 URL。
2. 网页的基本构成
一般来说一个网页的页面主要有 HTML、CSS、JavaScript 构成,这里我们可以打开任意一个网页右击查看网页源代码。
3. 常见的加载模式
学习爬虫有必要了解网页常见的两种加载模式。
同步加载:改变网址上的某些参数会导致网页发生改变。如常见的网站翻页后网址会发生变化。
异步加载:改变网址上的参数不会使网页发生改变。如常见的网站翻页后网址不会发生变化。
掘金网【同公号命】旗下无极*挂机宝一键IP切换,帮助爬虫