java数据爬取_java爬虫,爬取当当网数据

背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百度一番,最终决定还是用java大法爬虫,毕竟java熟悉点,话不多说,开工!:

实现:

首先搭建框架,创建一个maven项目,使用框架是springboot和mybatis,开发工具是idea,pom.xml如下:

4.0.0

org.springframework.boot

spring-boot-starter-parent

2.1.4.RELEASE

cn.com.boco

demo

0.0.1-SNAPSHOT

demo

Demo project for Spring Boot

1.8

org.springframework.boot

spring-boot-starter-data-jpa

org.springframework.boot

spring-boot-starter-jdbc

org.springframework.boot

spring-boot-starter-web

org.mybatis.spring.boot

mybatis-spring-boot-starter

2.0.1

mysql

mysql-connector-java

runtime

org.springframework.boot

spring-boot-starter-test

test

com.oracle

ojdbc6

11.2.0

org.apache.httpcomponents

httpclient

4.5.5

org.jsoup

jsoup

1.11.3

com.alibaba

fastjson

1.2.45

org.springframework.boot

spring-boot-maven-plugin

目录结构如下:

f4c8cdca47fb695ba210ccb37bddf8d4.png

连接的数据库是oracle本地的数据库,配置文件如下

注意:application.yml文件中

spring:

profiles:

active:dev

指定的就是application_dev.yml文件,就是配置文件用的这个,在实际开发中,可以通过这种方式配置几份配置环境,这样发布的时候切换active属性就行,不用修改配置文件了

application_dev.yml配置文件:

server:

port: 8084

spring:

datasource:

username: system

password: 123456

url: jdbc:oracle:thin:@localhost

driver-class-name: oracle.jdbc.driver.OracleDriver

mybatis:

mapper-locations: classpath*:mapping/*.xml

type-aliases-package: cn.com.boc

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用Java编写爬虫爬取潮汐数据。以下是一个简单的示例代码,使用Jsoup库来进行页面解析和数据提取。 首先,确保你已经安装了Jsoup库。你可以在Maven项目的pom.xml文件中添加以下依赖项: ```xml <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency> ``` 然后,你可以使用下面的代码来实现爬虫: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class TideCrawler { public static void main(String[] args) { String url = "https://example.com"; // 替换成你要爬取数据的网址 try { Document doc = Jsoup.connect(url).get(); Elements tideElements = doc.select("your css selector"); // 使用正确的CSS选择器来定位潮汐数据所在的元素 for (Element tideElement : tideElements) { String tideData = tideElement.text(); // 获取潮汐数据文本 System.out.println(tideData); } } catch (IOException e) { e.printStackTrace(); } } } ``` 在上面的示例代码中,你需要将"url"替换为你要爬取的网址,并使用正确的CSS选择器来定位潮汐数据所在的元素。你可以使用浏览器的开发者工具来查看目标网页的HTML结构,并选择合适的CSS选择器。 请注意,爬取网站数据时需要遵守网站的使用条款和规定。在进行任何爬取操作之前,请确保你已经阅读并理解了目标网站的规定,并尊重网站的隐私政策和使用限制。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值