1、安装node.js Node.js官网
2、直接上代码
var http = require('http');
var fs = require('fs'); // 文件系统模块
var cheerio = require('cheerio'); // 抓取网页数据模块,需要安装,npm install cheerio
var url = 'http://lol.duowan.com/hero/'; // 我要爬取的网站
http.get(url, function(res) {
var html = '';
res.on('data', function(data) {
html += data;
});
res.on('end', function(){
// console.log(html); // 获取到的网页源码
filterChapters(html);
})
}).on('error', function() {
console.log('获取网页源码失败....');
})
function filterChapters(html) {
var $ = cheerio.load(html);
var element = $('.champion_tooltip');
var heroNames = element.children('h2'); // 通过选择器查找元素
var heroAliass = element.find('h3');
var heroIntroduces = element.find('p');
var heroTypes = element.find('span');
// 英雄对象 // 对象数组
var hero = {}, heros = [];
var sql;
var str;
for (var i = 0; i < heroNames.length; i++) {
sql = 'insert into lolhero(heroName, heroAlias, heroIntroduce, heroType) ' +
' values (\''+$(heroNames[i]).text()+'\',\''+$(heroAliass[i]).text()+'\',\''+$(heroIntroduces[i]).text()+'\',\''+$(heroTypes[i]).text()+'\');';
hero = {
heroName : $(heroNames[i]).text(),
heroAlias : $(heroAliass[i]).text(),
heroIntroduce : $(heroIntroduces[i]).text(),
heroType : $(heroTypes[i]).text()
}
// 返回json数组
heros.push(hero);
// 返回sql语句
str += sql;
}
// 将所有的英雄信息生成sql语句
var out = fs.createWriteStream('./sql.txt')
out.write(str);
console.log(heros.length);
console.log(str);
}
3、创建数据库 Mysql
DROP TABLE IF EXISTS `lolhero`;
CREATE TABLE `lolhero` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`heroName` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
`heroAlias` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
`heroIntroduce` varchar(500) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
`heroType` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
PRIMARY KEY (`id`) USING BTREE
)
4、有一点要注意的:爬取出来的数据,有的会多一个 ' 号导致数据错误,如下图:
5、大功告成,初学所写,勿见怪 ....