获取界面url_爬虫入门小例—获取Etekcity Amazon商品Review

1a096eb46af0b622588ddb976fda665b.png

前言:

  • 作为入门数据小白,笔者在入职前一直认为模型和算法Sql数据库指令管理才是数据相关工作者的核心技能。但是依靠各数据平台或公司自身的数据获取途径,在部分情况下无法很好的满足业务本身的数据需求,因此掌握一定的爬虫技能对于数据工作者来说能够为后续的建模及分析提供数据源的支撑。(笔者自身水平有限,还望多多指正。)
  • 运行环境:

Python 3.7版本

Anaconda Spyder

  • 主要的第三方库:

tqdm (用于查看爬取进度及计时)

requests(本案例中的核心包,适合爬虫入门)

pandas (数据分析神器,妙用无穷,此处仅用于写数做表。)

re(用于解析正则表达式的工具)

  • 爬取目的:查看亚马逊店铺商品的评价,获取用户信息,完成对于商品的用户反馈分析/竞品分析
  • 爬取对象:亚马逊商店Etekcity 无线远程控制插座开关 商品Review共计50页
  • 爬取的内容:用户评价内容、用户ID、用户评价星级、用户简评、评价时间
  • 爬取对象的URL:
Amazon.com: Customer reviews: Etekcity Remote Control Outlet Kit Wireless Light Switch for Household Appliances, Unlimited Connections, Up to 100 ft. Range, FCC Certified, ETL Listed, White (Learning Code, 5Rx-2Tx)​www.amazon.com
3ef93b465b5f1e685e4eb64fcf5d3e80.png

1.简介爬虫的基本流程:

1.获取爬取目标网页的URL

注:在此处URL即指为浏览器地址栏中的网址,例如我要访问亚马逊官网,它的URL即为:

https://www.amazon.com/

2.通过request库对目标URL进行解析,获得其源代码。

(网页内容,并非“所见即所得”)

3.通过撰写正则表达式,匹配目标网页源码中想要的内容。

4.通过匹配获得目标数据,将数据写入对应文档。

5.爬取成功,输出爬取数据。

2.从Request库来获取网页的源代码:

  • 思路:本步骤的思路是通过resquests库的抓取功能来获得网页源代码,涉及到的参数为网址URL以及请求头Headers。

url:统一资源定位符,通俗来说即为目标网页的地址。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在Spring Boot中,你可以使用Amazon S3 SDK来将OSS获取URL存入数据。 首先,你需要在你的pom.xml文件中添加Amazon S3 SDK依赖: ``` <dependency> <groupId>com.amazonaws</groupId> <artifactId>aws-java-sdk-s3</artifactId> <version>1.11.1003</version> </dependency> ``` 然后,在你的代码中使用以下步骤将OSS获取URL存入数据: 1. 创建Amazon S3客户端: ``` AmazonS3 s3Client = AmazonS3ClientBuilder.standard() .withCredentials(new AWSStaticCredentialsProvider(new BasicAWSCredentials(accessKey, secretKey))) .withRegion(region) .build(); ``` 其中,accessKey和secretKey是你的OSS访问密钥,region是OSS所在的地域信息。 2. 获取文件URL: ``` String url = s3Client.getUrl(bucketName, objectKey).toString(); ``` 其中,bucketName是你的OSS存储桶名称,objectKey是存储对象的唯一标识符。 3. 将URL存入数据: 你可以使用Spring Data JPA或者MyBatis等ORM框架将URL存入数据。例如,使用Spring Data JPA: ``` @Entity @Table(name = "file") public class FileEntity { @Id @GeneratedValue(strategy = GenerationType.IDENTITY) private Long id; private String name; private String url; // getters and setters } ``` ``` @Repository public interface FileRepository extends JpaRepository<FileEntity, Long> { } ``` ``` @Service public class FileService { @Autowired private FileRepository fileRepository; public void saveFile(String name, String url) { FileEntity file = new FileEntity(); file.setName(name); file.setUrl(url); fileRepository.save(file); } } ``` 在保存文件时,调用saveFile方法将文件名和URL存入数据即可。 注意,以上代码仅供参考,具体实现可能需要根据你的项目需求进行调整。 ### 回答2: 在Spring Boot中将OSS获取URL存入数据,可以通过以下步骤实现: 1. 配置阿里云OSS SDK依赖:在项目的pom.xml文件中添加阿里云OSS SDK的依赖,确保能够使用OSS相关的API。 2. 创建数据表:根据需求,在数据中创建一个表,用于存储OSS获取URL。表中可以包含字段如id、url等。 3. 创建实体类:在Java代码中创建与数据表对应的实体类,例如创建一个OssUrl实体类,包含与表字段对应的属性。 4. 编写处理逻辑:在需要使用OSS获取URL并存入数据的地方,编写相应的处理逻辑。可以使用OSS SDK提供的API上传文件到OSS,并获取该文件的URL。 5. 将URL存入数据获取URL后,可以使用Spring Data JPA等持久化框架的方法,将URL存入数据中。 具体实现代码示例如下: ```java // OssUrl 实体类 @Entity public class OssUrl { @Id @GeneratedValue(strategy = GenerationType.IDENTITY) private Long id; private String url; // 省略getter和setter方法 } // 服务类 @Service public class OssUrlService { @Autowired private OssUrlRepository ossUrlRepository; @Autowired private OSS ossClient; // 阿里云OSS客户端 public void saveOssUrl(String objectName) { // 上传文件到OSS // 获取文件URL String url = ossClient.generatePresignedUrl(bucketName, objectName, expiration).toString(); // 将URL存入数据 OssUrl ossUrl = new OssUrl(); ossUrl.setUrl(url); ossUrlRepository.save(ossUrl); } } ``` 需要注意的是,上述示例中的代码仅是一个基本的参考,具体实现还需要根据实际需求进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值