java爬取电影网站数据存入数据库_Java豆瓣电影爬虫——减少与数据库交互实现批量插入...

关键时刻,第一时间送达!

节前一个误操作把mysql中record表和movie表都清空了,显然我是没有做什么mysql备份的。所以,索性我把所有的表数据都清空的,一夜回到解放前……

在上一个版本中,record表存储了7万多条记录,爬取的有4万多条,但是可以明显的发现爬取的数据量越多的时候,机子就越卡。又一次报错,是有关JDBC的,还有一次机子跑卡死了。

仔细一琢磨,上个版本的爬虫程序与数据库的读写次数太频繁,存在以下问题:

3.存储电影详情页记录以及短评数据都是采用解析一条则立即存储到数据库。

显然,上面的这种方式是一目了然的效率低下,所以今天下午对相关代码进行改造,部分实现了批量插入,尽可能减少与数据库的交互,从而降低时空成本。

既然问题出现了,就顺着这个版本看看,最终发现问题的原因是对于种子网址并没有存储到mysql的record表中,所以在DoubanCrawler类中。

73f8f13ad325cffaf8bf8cfc0b5f83ff.png

执行stmt.executeUpdate(sql) > 0是返回的值为0,从而不会从数据库中读取crawled为0的记录,最后就一直在while的循环中爬取种子网站。

解决方法:对于种子网站既然没有存储到record的操作,那么就对种子网站做特殊处理,将if的判断条件改为 if (stmt .executeUpdate(sql) > 0 || frontPage .equals(url)),这样对于种子网站即使没有update更新成功操作仍然可以进入读取数据库crawled为0 的操作。

针对第一个问题,采用批量插入操作

具体实现如下:

3259fca07654085819df2d7cb11c8bda.png

aef5109a5162ddd75e50707277b93d74.png

610328382b1d3c5ed961717069d61a79.png

1.通过正则匹配,找到符合条件的link,并添加到nextLinkList集合中

2.遍历完后,将数据存到数据库中

3. 在批量操作中,使用了addBatch()方法和executeBatch()方法,注意需要添加conn.setAutoCommit( false);以及conn.commit()表示手动提交。

针对第二个问题,采用一次查询多条记录

实现思路 :将每次只查询一条记录,改为每次查询10条记录,并将这10条记录存放到list集合中,并将原来的String类型的url改为list类型的urlList传入

到 DouBanHttpGetUtil.getByString()方法里。这样即减少了与数据库的交互,同时也减少了对于getByString方法的调用。

具体实现如下:

657b90e02b7bb412c249411012309921.png

注意: 1.这里采用每次读取10条记录,相应的也需要将这10条记录的crawled字段更新为1,表示爬取过。

2. mysql不支持top 10 * 这样的语法,但是可以通过代码中所示的limit 10 的方式取出数据。

3. 添加conn.setAutoCommit( true );表示更新操作设置为自动提交,这样就可以解决虽然程序执行成功但是数据没有更新到数据库的现象。

针对第三个问题,与第一个问题解决方法相同。

虽然不知道这样做带来的效果有多明显,或有是否有更好的解决方案,但是可以肯定的是上个版本的代码会大量占用内存并频繁与数据库交互。

本人(作者)是数据库小白,希望有更好的方案可以提出来~~~

来源:博客园精华区

程序员大咖整理发布,转载请联系作者获得授权

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首先,使用Python爬取新浪微博评论数据需要以下步骤: 1. 登录微博开放平台,创建应用并获取App Key和App Secret。 2. 使用App Key和App Secret获取access_token。 3. 使用access_token获取微博的API接口。 4. 使用API接口获取微博评论数据。 5. 将数据存入数据库或写入csv文件中。 下面是一个简单的示例代码,演示如何使用Python爬取新浪微博评论数据存入数据库中: ```python import os import sys import time import json import pymysql import requests from urllib.parse import quote_plus from datetime import datetime from dotenv import load_dotenv load_dotenv() app_key = os.getenv("APP_KEY") app_secret = os.getenv("APP_SECRET") access_token = os.getenv("ACCESS_TOKEN") # 数据库配置 db_host = os.getenv("DB_HOST") db_port = os.getenv("DB_PORT") db_user = os.getenv("DB_USER") db_password = os.getenv("DB_PASSWORD") db_name = os.getenv("DB_NAME") # 连接数据库 db = pymysql.connect(host=db_host, port=int(db_port), user=db_user, password=db_password, db=db_name, charset="utf8mb4") cursor = db.cursor() # 微博接口配置 base_url = "https://api.weibo.com/2/comments/show.json" max_count = 200 since_id = None max_id = None while True: # 构造API请求参数 params = { "access_token": access_token, "source": app_key, "count": max_count, "since_id": since_id, "max_id": max_id, } # 发送API请求 response = requests.get(base_url, params=params) if response.status_code != 200: print("Failed to get comments data from Weibo API.") sys.exit(1) # 解析API响应数据 data = json.loads(response.text) comments = data["comments"] # 遍历评论数据存入数据库 for comment in comments: created_at = datetime.strptime(comment["created_at"], "%a %b %d %H:%M:%S +0800 %Y") text = comment["text"] user_id = comment["user"]["id"] user_name = comment["user"]["name"] mid = comment["mid"] sql = "INSERT INTO comments (created_at, text, user_id, user_name, mid) VALUES (%s, %s, %s, %s, %s)" try: cursor.execute(sql, (created_at, text, user_id, user_name, mid)) db.commit() except: db.rollback() # 更新API请求参数 if len(comments) == 0: break else: since_id = comments[0]["id"] max_id = comments[-1]["id"] # 控制API请求频率 time.sleep(5) ``` 以上代码中使用了dotenv库来读取环境变量,因此需要在项目根目录下创建一个名为“.env”的文件,并在其中添加以下配置项: ```text APP_KEY=your_app_key APP_SECRET=your_app_secret ACCESS_TOKEN=your_access_token DB_HOST=your_db_host DB_PORT=your_db_port DB_USER=your_db_user DB_PASSWORD=your_db_password DB_NAME=your_db_name ``` 注意:上述代码中的“comments”和“comments_data”均为示例数据库表名,需要根据实际情况修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值