JS爬虫nodejs

fs

FileSystem文件系统,是nodejs中的一个很常用的基础模块,可以操作系统文件

// commonJS
const fs = require('fs'); // 引入fs模块
// require引入模块的时候会先从系统内置模块(包)中查找模块名
//  然后再去node_modules目录中查找,node_modules文件夹是我们通过npm i 安装的第三方依赖所在的目录
//  最后在当前项目中查找

writefile

const fs = require("fs");
// 同步的方式写入文件
//  参数一表示文件名
//  参数二表示文件内容
fs.writeFileSync("./你好.txt", "我是一段文字,很长很长。。。");
console.log("同步的写文件");

// 异步写文件
fs.writeFile("./你好2.txt", "我还是一段文字", function (e) {
  if (e) {
    console.log(e);
  }
  console.log("写入文件完成");
});
console.log("写文件");

爬虫

爬虫又叫网络蜘蛛,可以去其他网站上进行数据抓取
当系统上线之前,会去友商的平台上做数据爬取。把数据存储到自己的系统中
国内做爬虫的常用开发语言:python、java、php。nodejs 也能写爬虫

需要使用到的插件

# axios 用来发起网络请求的插件,这个插件是以后我们需要经常使用到的.axios不止能在nodejs中使用还能在浏览器中使用
# cheerio 用来对字符串做解析,可以把字符串转换为类jQ对象的形式,进行解析
npm i axios cheerio # 安装插件,在npm安装模块的时候,可以一次安装多个,多个用空格分割

spider

const fs = require("fs");
const cheerio = require("cheerio");
const axios = require("axios").default; // 发起一个网络请求获取数据
// cheerio.load 把一个字符串转换为一个类似于jQ的对象
// const $ = cheerio.load(`<div class="content">
//   <h1>我是一个h1标签</h1>
//   <p>我是一个p标签</p>
// </div>`);
const books = [];
axios
  .get(
    "https://www.17k.com/top/refactor/top100/01_subscribe/01_subscribe__top_100_pc.html"
  )
  .then((res) => {
    const $ = cheerio.load(res.data);

    $(".BOX")
      .eq(0) // 获取指定索引位置的数据,返回一个jq实例
      .find("table tr") // find 查找符合元素选择条件的数据
      .each(function (index) {
        if (index > 0) {
          // 不取第一项
          // console.log($(this).find("td").eq(2).find("a").text());
          let book = {};
          book.id = index;
          book.title = $(this).find("td").eq(2).find("a").text();
          book.link =
            "https:" + $(this).find("td").eq(2).find("a").attr("href");
          fs.mkdirSync("./books/" + book.title, {
            recursive: true,
          });
          books.push(book);
        }
      });
    fs.writeFileSync("./books.json", JSON.stringify(books));
  });

// console.log($("h1").text());
const fs = require("fs");
fs.mkdirSync("./data/20200629", {
  recursive: true, // 循环进行创建
}); // 创建文件夹

// nodejs的很多操作都是异步
//  在异步操作的回调函数中 第一个参数表示异常信息
//  nodejs的默认机制是错误优先

// 异步的创建目录
fs.mkdir(
  "./data/2020", {
    recursive: true,
  },
  function (err) {
    if (err) {
      console.log(err);
    }
    console.log("完成");
  }
);

// 获取文件的数据
const stat = fs.statSync("./你好2.txt");
console.log(stat);

// existsSync判断指定的文件是否存在
console.log(fs.existsSync("./books"));

setupvpn

百度搜索chrome插件setupvpn进行安装

以后需要安装一些chrome插件的时候需要翻墙使用

npm

npm是nodejs的包管理工具。千万千万别再用cnpm了

# npm安装插件的时候会特别慢,可以通过设置淘宝镜像来解决这个问题
npm i nrm -g # 安装一个nrm模块,用来切换npm的仓库镜像地址
nrm ls # 列出当前可以使用的镜像仓库地址
nrm use taobao # 设置当前的安装仓库镜像地址为淘宝镜像, 此操作在一台电脑只需要设置一次就好

npm中常用的命令

npm init # 初始化一个node项目
npm i xx # 安装依赖项
npm i xx -g # 全局安装
npm i xx@version # 安装指定版本的模块
npm uninstall xx # 卸载模块

nodejs执行文件

node xx # node加文件名
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值