我希望能够从网页上, 比如气象局数据, 财经数据等等, 我看到官方提供的数据都比较混乱, 有的是一个php文件, 有的是一个文本, 有的干脆不提供数据, 我想问, Mac上, 用什么工具去抓数据, 以及处理这些数据大神们一般用很么方法?
1、http://Import.io
import.io用法非常简单,注册后输入网址链接,就可以在可视化界面对数据进行筛选。操作也是超级简单,如下图,唯一缺点就是全英文,不过咱们自己也有,来看看第二个吧。
![v2-acebbaa727dc018d746b3b5c9e40b926_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/2188850a83aa8d6080865ad1728974f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e6c328c4d32bd428e40a3e17b6325e53.png)
![v2-b5234d9b93201e548e9ad13fa1a27ba3_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/c12d599a6bc8b100f9a191b34f00c63f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ea08fc9156c522f509f982b641d0de3b.png)
2、parsehub
parsehub与以上两种网页抓取不同的是,parsehub需要用户下载客户端之后再使用,打开就像一个浏览器,输入网址后在网页提取出需要的信息。
![v2-5ffa6d577260eedf0db1835b76f5d2e5_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/cc51201af8661272cee4ccd53bb44f97.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c6092026f51b5d1926a94641857c89d8.png)
![v2-3265a1a2ad79d5eb56cba8571a35a530_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/518d5dc4001161a79e82ce7a7dd80534.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d911f344777f01fe12cd80ea3b9e2631.png)
https://ma.taobao.com/ZTg4et (二维码自动识别)
3、80legs
80legs80legs在由5万台计算机构成的Plura网格 上每天抓取200万网页。 但是在使用上可能并没有前几个那么好用。
![v2-f55f186e58e653d9df909ca367240120_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/edeabd85932b54720e5775d80f534025.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0e7782d5d9368fe302c1a880660f21a1.png)
![v2-0c4fe0b77d29c482467334dd5262e9d2_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/d192b2a1cd882940c4a72e524cf25138.png)
![](https://i-blog.csdnimg.cn/blog_migrate/578d8bc759859d6893a39700a56d5523.png)
4、Web Scraper
Web ScraperWeb Scraper是需要在谷歌应用商店安装的一个插件,基本步骤就是点点点
详细的教程可以看这里http://www.w 2bc.com/article/241334
![v2-4e4c98168d73b81c10c41923430215b0_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/e9c5595e900bc3b79ecc32c52c8e8160.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7c402fa8674c8bd2047c82328ca87bfa.png)
https://ma.taobao.com/ZTg4et (二维码自动识别)
5、FMiner
FMinerFMiner同样也需要下载客户端进行使用,但它是一款付费产品,有15天的免费使用期。
![v2-702526eff11cb3190f5ccabe0c948ebc_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/a8ee394965eaf572f72e767a0d519cdf.png)
![](https://i-blog.csdnimg.cn/blog_migrate/80b9f8962b562b2dd8ef658164f7458a.png)
![v2-fcd3a0855b2d8016d99c2fb7eab87185_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/eadfbe5a0d4b5f3f4cd1e6fb93307952.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2cf494688c1a9d3a66598c2b1d2028a7.png)
![v2-81863352646781fc58833db684cd1455_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/f29f645fd62c6fc1d7ff48a1b2ef6370.png)
![](https://i-blog.csdnimg.cn/blog_migrate/faab413945bf860bd4592be24d22e52f.png)
总结
以上介绍的都是国外的工具,如果更喜欢中文界面,可以来试试我们的产品造数造数 -深受广大爬虫爱好者喜欢的云爬虫
造数比http://import.io更适合国人使用。直接在原网页基础上操作,还可以分布式爬取、深度爬取等,对数据有需求的可以尝试下。
![v2-e36ca192fb5da05c2dbd20ebfe8944f9_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/05ef40024c2779749a0108025ce51b32.png)
![](https://i-blog.csdnimg.cn/blog_migrate/301441ed69ae76c4b944310d6050dfd5.png)
其实网页爬取工具很多,大可不必全部掌握,把它当作工具来方便自己的工作才是本文的目标。
链接:https://www.zhihu.com/question/27736988/answer/497899625
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
我在mac上用的是下图这个,日常基本数据的爬取足够了。
1)日常临时性的,或者快速的数据爬取,就用这个
2)其他的还是会写写python爬取,毕竟开发需要时间和成本,要考虑投入产出比
![v2-7d629f6caa4efc9ee9e1e573e24512e6_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/47f95d21f30447150f4d55f4759eed0c.jpeg)
![](https://i-blog.csdnimg.cn/blog_migrate/c7122de3f05e183ccb4df0b3a01a4177.jpeg)
![v2-ebae6429c58c3a9ede77cb2f9594bac3_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/85036bf10e9760c05da94b685b5adb39.jpeg)
![](https://i-blog.csdnimg.cn/blog_migrate/f599c528629076ad6da0274e76c855ef.jpeg)
![v2-43b83234524e9c3fcc17ace5517478c8_hd.jpg](https://i-blog.csdnimg.cn/blog_migrate/ec38685abbd39d068a500c54fe29799d.jpeg)
![](https://i-blog.csdnimg.cn/blog_migrate/875521863f1e2b234939cab439667f35.jpeg)