使用scrapy框架爬虫并将数据保存到MySQL数据库

最新推荐文章于 2024-07-12 21:30:00 发布

我开心呀

最新推荐文章于 2024-07-12 21:30:00 发布

阅读量9.9k

点赞数 14

分类专栏：研究生之路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36812990/article/details/97125764

版权

本文介绍了如何使用Scrapy框架构建Python爬虫，抓取数据并将其存储到MySQL数据库中，包括环境搭建、爬虫实现、数据保存到数据库的步骤，以及遇到的问题与解决方案。

摘要由CSDN通过智能技术生成

作者寄语：

这两天主要研究了一下爬虫，看了一些爬虫代码，整理了一些最简单的爬虫入门，也遇到很多坑，希望能帮助和我一样的初学者。
这篇文章主要讲了如何使用python实现简单的爬虫，并将爬取的数据保存到数据库中，使其结构化，因为平时爬取的文件结果多以json文件为主，有时使用时不太方便。保存到数据库里，可以更方便使用。
废话不多说，开始操作：

环境搭建：

1.python3.6版本
2.pycharm编辑器（别的编辑器也可以）。
3.mySQL数据库
4.navicat for mysql
5.scrapy爬虫框架
下载这块就不多说了，网上很多下载安装教程及解决方案。遇到问题不要着急，根据报错信息查找解决。

操作步骤：

一.爬虫的实现

1.首先我们使用命令行新建一个scrapy项目。windows使用win+R，输入cmd，进入终端。进入你想创建项目的文件目录，输入scrapy start project hellospider(文件名),等待scrapy自动生成文件，此时使用编辑器打开hellospider文件，你会看这样的结构：
在这里插入图片描述

2.接下来，在spiders文件夹下创建myspider.py文件，文件内容如下：

最低0.47元/天解锁文章

关注

14
点赞
踩
104

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我开心呀 CSDN认证博客专家 CSDN认证企业博客

码龄8年

20: 原创

40万+: 周排名

120万+: 总排名

8万+: 访问

: 等级

919: 积分

36: 粉丝

79: 获赞

78: 评论

672: 收藏

私信

关注

热门文章

分类专栏

最新评论

tensorboard使用中的坑(ValueError:Duplicate plugins for name projector)
昭乌达: 解决了，感谢
tensorboard使用中的坑(ValueError:Duplicate plugins for name projector)
chlhoa: 有用，解决了
tensorboard使用中的坑(ValueError:Duplicate plugins for name projector)
看，佩奇: 一个训练程序一个端口号，就是一个python train.py一个端口号
基于BERT做中文文本分类(情感分析)
weixin_71661385: 想请问一下，这是怎么回事，该怎么救啊 (myenv) weibang@weideMacBook-Air bert % ./run.sh usage: run_classifier.py [-h] --data_dir DATA_DIR --bert_config_file BERT_CONFIG_FILE --task_name TASK_NAME --vocab_file VOCAB_FILE --output_dir OUTPUT_DIR [--init_checkpoint INIT_CHECKPOINT] [--do_lower_case DO_LOWER_CASE] [--max_seq_length MAX_SEQ_LENGTH] [--num_train_epochs NUM_TRAIN_EPOCHS] [--learning_rate LEARNING_RATE] [--train_batch_size TRAIN_BATCH_SIZE] [--do_train DO_TRAIN] [--do_eval DO_EVAL] [--do_predict DO_PREDICT] data_dir task_name vocab_file bert_config_file output_dir train_batch_size learning_rate num_train_epochs run_classifier.py: error: the following arguments are required: data_dir, task_name, vocab_file, bert_config_file, output_dir, train_batch_size, learning_rate, num_train_epochs
基于chatterbot制作聊天机器人
将心ONE: 你好训练是一问一答的形式，那么如果是说了几句话才得到回应，博主是怎么处理的

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。