scrapy爬取途牛网站旅游数据

最新推荐文章于 2024-07-12 22:58:11 发布

芋艿ashes

最新推荐文章于 2024-07-12 22:58:11 发布

阅读量6.1k

点赞数 2

分类专栏： Python相关

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014257192/article/details/77418366

版权

描述：采取了scrapy框架对途牛网旅游数据进行了爬取，刚开始练手，所以只爬了四个字段用作测试，分别是景点名称、景点位置、景点开放时间、景点描述，爬取结果存的是json格式。
部分数据：
这里写图片描述
部分代码：

遇到的问题：start_urls是不能动态添加URL的，这个还需要研究，这里只是简单把所有待爬取的网址全扔进了start_urls里面，这是可行的，但是对网址的预处理就很耗时间了。然后是对汉字编码的处理，在scrapy中一开始传到json中的数据总是/uxxx类型的，这需要在pipeline.py、setting.py中都进行修改，具体修改如下：
在pipelines.py中，修改代码如下：

最低0.47元/天解锁文章

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

芋艿ashes CSDN认证博客专家 CSDN认证企业博客

码龄11年

119: 原创

8万+: 周排名

150万+: 总排名

10万+: 访问

: 等级

2128: 积分

13: 粉丝

16: 获赞

12: 评论

79: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python批量修改图片分辨率
m0_58388029: 这个保存的文件夹是我们自己创建还是代码自己建哦
隐马尔科夫实现中文分词（Python3实现）
Abro.: 同求训练语料文件！
跨语言评测数据集之XNLI介绍
xxaxtt: TRANSLATE TEST优于TRANSLATE TRAIN的结论有点奇怪。假设训练数据集是英语的，测试数据集是法语的。TRANSLATE TEST是先用英语数据集训练模型，然后测试时将法语翻译为英语，然后给出测试结果。TRANSLATE TRAIN是先将英语数据集翻译为法语数据集进行训练，然后测试时直接输入法语，给出测试结果。直觉上TRANSLATE TRAIN是基于法语训练的，效果应该更好才对啊？
跨语言评测数据集之XNLI介绍
xxaxtt: BiLSTM-max效果好于BiLSTM-last，说明理解语义是需要抓重点的
隐马尔科夫实现中文分词（Python3实现）
"^-^": 求语料库文本文件

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。