使用nodejs 爬虫框架 Crawler爬取全国省市区的数据
node-crawler 是nodejs 的爬虫框架。
默认使用Cheerio进行jquery式DOM解析,更方便的抓取网页的特定部分。
更多特性和功能 crawler中文文档
爬取全国的省市区的数据
国家统计局的统计的数据网站
分析网页的结构。
入口网址是index.html,列出了省份和直辖市
点击省份会跳到下级市的网站,网址为对应的a的href替换掉index
以此类推
原创
2018-01-28 23:46:31 ·
7814 阅读 ·
0 评论