最近使用node 的cheerio模块开发爬虫,主要是抓取邮箱里面的银行账单信息
cheerio允许我们使用Jquery的语法来对抓取的代码进行操作
相关介绍请点击https://github.com/cheeriojs/cheerio
但是你知道,银行的页面比较老是一堆table嵌套的,没有class没有id,非常恶心
cheerio获取抓取到的代码中的数据有html()和text()两个函数可以调用
大家千万要使用text(),本人亲测,使用html()会把代码中的中文转化为乱码
而且,使用text()可以快速的提取代码里面包含的文本数据
然后运用正则表达式匹配很快就可以获取到你想要抓取的数据。