获取界面url_爬虫入门小例—获取Etekcity Amazon商品Review

Bearseason

于 2021-01-12 02:50:10 发布

阅读量298

点赞数

文章标签：获取界面url

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42513152/article/details/112588975

版权

前言：

作为入门数据小白，笔者在入职前一直认为模型和算法Sql数据库指令管理才是数据相关工作者的核心技能。但是依靠各数据平台或公司自身的数据获取途径，在部分情况下无法很好的满足业务本身的数据需求，因此掌握一定的爬虫技能对于数据工作者来说能够为后续的建模及分析提供数据源的支撑。（笔者自身水平有限，还望多多指正。）

运行环境：

Python 3.7版本

Anaconda Spyder

主要的第三方库：

tqdm (用于查看爬取进度及计时）

requests（本案例中的核心包，适合爬虫入门）

pandas （数据分析神器，妙用无穷，此处仅用于写数做表。）

re（用于解析正则表达式的工具）

爬取目的：查看亚马逊店铺商品的评价，获取用户信息，完成对于商品的用户反馈分析/竞品分析
爬取对象：亚马逊商店Etekcity 无线远程控制插座开关商品Review共计50页
爬取的内容：用户评价内容、用户ID、用户评价星级、用户简评、评价时间
爬取对象的URL：

Amazon.com: Customer reviews: Etekcity Remote Control Outlet Kit Wireless Light Switch for Household Appliances, Unlimited Connections, Up to 100 ft. Range, FCC Certified, ETL Listed, White (Learning Code, 5Rx-2Tx)www.amazon.com

1.简介爬虫的基本流程：

1.获取爬取目标网页的URL

注：在此处URL即指为浏览器地址栏中的网址，例如我要访问亚马逊官网，它的URL即为：

https://www.amazon.com/

2.通过request库对目标URL进行解析，获得其源代码。

（网页内容，并非“所见即所得”）

3.通过撰写正则表达式，匹配目标网页源码中想要的内容。

4.通过匹配获得目标数据，将数据写入对应文档。

5.爬取成功，输出爬取数据。

2.从Request库来获取网页的源代码：

思路：本步骤的思路是通过resquests库的抓取功能来获得网页源代码，涉及到的参数为网址URL以及请求头Headers。

url：统一资源定位符，通俗来说即为目标网页的地址。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
获取界面url_爬虫入门小例—获取Etekcity Amazon商品Review

前言：作为入门数据小白，笔者在入职前一直认为模型和算法Sql数据库指令管理才是数据相关工作者的核心技能。但是依靠各数据平台或公司自身的数据获取途径，在部分情况下无法很好的满足业务本身的数据需求，因此掌握一定的爬虫技能对于数据工作者来说能够为后续的建模及分析提供数据源的支撑。（笔者自身水平有限，还望多多指正。）运行环境：Python 3.7版本Anaconda Spyder主要的第三方库：tqdm ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。