采集本地HTML数据,火车采集器保存为本地word、excel、html、txt文件方法及文件模板_爬虫软件技术与爬虫软件网页数据采集器门户...

本文详细介绍了如何使用火车采集器将爬取的数据保存为本地的word、excel、html、txt文件,并解决了文件乱码问题。主要步骤包括选择正确的文件模板和编码设置,例如将txt模板设置为ANSI或UTF-8编码,确保发布设置与模板编码一致。此外,还提到了文件命名和编码选择的注意事项,如UTF-8和GBK的选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

火车采集器保存为本地word、excel、html、txt文件方法及文件模板_爬虫软件技术与爬虫软件网页数据采集器门户

2018 年 10 月 27 日

火车采集器如何将采集到的数据发布到本地的文件 TXT 或者CSV 等格式乱码

解决办法:

模版文件,用txt格式打开,然后 文件—另存为,选择ansi编码 然后发布设置那里 选择GBK 编码,或者

文件—另存为,选择utf-8编码 然后发布设置那里 选择UTF-8 发布即可

1、 我们以软件自带的火车采集器采集规则 搜狐新闻 为例子

5fff9a883a8d90baf582d814f644c272.png

2、 双击火车采集器采集规则,打开 搜狐新闻 这个规则

7f53402ba67a78a7b922fef8f6958b14.png

第三步:发布内容设置勾选 “方式二”的启用保存文件格式(自己可根据需要来选择)

3、 保存位置,这里就不做说明了,想保存到哪里就保存到哪里你的地盘你自个做主~

4、 文件模版,简单的说就是你保存到文件的具体模版样式。

以 “搜狐新闻”为例做txt文件模版

f71e1df4718a21e9b7a057e1f4fa8f39.png

有5个标签

所以txt模版对应写上就可以了

3dcb4a7d9f1b1ddcbf3186a8e23f45e7.png

模版会自动提取相应的标签内容。

Html 模版也是一样的

2093207a1c2d7a9c56751abed6b4b074.png

csv模版

d8faf4c2c18ecda6644f86b7b36f05b2.png

Word模版亦是如此

e2aca469a87252ce8f09e4e669f63597.png

5、 火车采集器文件名格式

55ca8725e215cdab5ec078fa227462fc.png

点击这个按钮,可出现一个选择列表,这里可以任意选择匹配,给文件命名。

6、 火采集器文件编码

有utf-8和 gb2312 两种。 发布后 如果显示是乱码 ,就可能是你的编码没设置正确,换一种 应该就可以了。

嗯 就这些了,写的非常的直白,应该都可以看懂~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值