获取界面url_爬虫入门小例—获取Etekcity Amazon商品Review

1a096eb46af0b622588ddb976fda665b.png

前言:

  • 作为入门数据小白,笔者在入职前一直认为模型和算法Sql数据库指令管理才是数据相关工作者的核心技能。但是依靠各数据平台或公司自身的数据获取途径,在部分情况下无法很好的满足业务本身的数据需求,因此掌握一定的爬虫技能对于数据工作者来说能够为后续的建模及分析提供数据源的支撑。(笔者自身水平有限,还望多多指正。)
  • 运行环境:

Python 3.7版本

Anaconda Spyder

  • 主要的第三方库:

tqdm (用于查看爬取进度及计时)

requests(本案例中的核心包,适合爬虫入门)

pandas (数据分析神器,妙用无穷,此处仅用于写数做表。)

re(用于解析正则表达式的工具)

  • 爬取目的:查看亚马逊店铺商品的评价,获取用户信息,完成对于商品的用户反馈分析/竞品分析
  • 爬取对象:亚马逊商店Etekcity 无线远程控制插座开关 商品Review共计50页
  • 爬取的内容:用户评价内容、用户ID、用户评价星级、用户简评、评价时间
  • 爬取对象的URL:
Amazon.com: Customer reviews: Etekcity Remote Control Outlet Kit Wireless Light Switch for Household Appliances, Unlimited Connections, Up to 100 ft. Range, FCC Certified, ETL Listed, White (Learning Code, 5Rx-2Tx)​www.amazon.com
3ef93b465b5f1e685e4eb64fcf5d3e80.png

1.简介爬虫的基本流程:

1.获取爬取目标网页的URL

注:在此处URL即指为浏览器地址栏中的网址,例如我要访问亚马逊官网,它的URL即为:

https://www.amazon.com/

2.通过request库对目标URL进行解析,获得其源代码。

(网页内容,并非“所见即所得”)

3.通过撰写正则表达式,匹配目标网页源码中想要的内容。

4.通过匹配获得目标数据,将数据写入对应文档。

5.爬取成功,输出爬取数据。

2.从Request库来获取网页的源代码:

  • 思路:本步骤的思路是通过resquests库的抓取功能来获得网页源代码,涉及到的参数为网址URL以及请求头Headers。

url:统一资源定位符,通俗来说即为目标网页的地址。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值