![1a096eb46af0b622588ddb976fda665b.png](https://i-blog.csdnimg.cn/blog_migrate/b26a5607e77109bf2a0a98589882e309.jpeg)
前言:
- 作为入门数据小白,笔者在入职前一直认为模型和算法Sql数据库指令管理才是数据相关工作者的核心技能。但是依靠各数据平台或公司自身的数据获取途径,在部分情况下无法很好的满足业务本身的数据需求,因此掌握一定的爬虫技能对于数据工作者来说能够为后续的建模及分析提供数据源的支撑。(笔者自身水平有限,还望多多指正。)
- 运行环境:
Python 3.7版本
Anaconda Spyder
- 主要的第三方库:
tqdm (用于查看爬取进度及计时)
requests(本案例中的核心包,适合爬虫入门)
pandas (数据分析神器,妙用无穷,此处仅用于写数做表。)
re(用于解析正则表达式的工具)
- 爬取目的:查看亚马逊店铺商品的评价,获取用户信息,完成对于商品的用户反馈分析/竞品分析
- 爬取对象:亚马逊商店Etekcity 无线远程控制插座开关 商品Review共计50页
- 爬取的内容:用户评价内容、用户ID、用户评价星级、用户简评、评价时间
- 爬取对象的URL:
![3ef93b465b5f1e685e4eb64fcf5d3e80.png](https://i-blog.csdnimg.cn/blog_migrate/b0343f878c77fe09a034a394d2b74e27.jpeg)
1.简介爬虫的基本流程:
1.获取爬取目标网页的URL
注:在此处URL即指为浏览器地址栏中的网址,例如我要访问亚马逊官网,它的URL即为:
https://www.amazon.com/
2.通过request库对目标URL进行解析,获得其源代码。
(网页内容,并非“所见即所得”)
3.通过撰写正则表达式,匹配目标网页源码中想要的内容。
4.通过匹配获得目标数据,将数据写入对应文档。
5.爬取成功,输出爬取数据。
2.从Request库来获取网页的源代码:
- 思路:本步骤的思路是通过resquests库的抓取功能来获得网页源代码,涉及到的参数为网址URL以及请求头Headers。
url:统一资源定位符,通俗来说即为目标网页的地址。