抓取妹子，就是我学习爬虫的动力

最新推荐文章于 2025-05-01 21:46:46 发布

爱打游戏的程序员

最新推荐文章于 2025-05-01 21:46:46 发布

阅读量279

点赞数

文章标签： nodejs npm 爬虫 git

本文链接：https://blog.csdn.net/maoyu0601/article/details/115609012

版权

使用到的项目

https://github.com/xikong1995/node-crawler

因为项目使用的是nodejs，所以要先安装

nodejs和npm安装

进入官网查看最新版本

https://nodejs.org/en/

node官网

添加源

curl -sL https://deb.nodesource.com/setup_14.x | sudo -E bash -  //数字的地方换成官网上的最新版本

安装

sudo apt-get install -y nodejs

nodejs 和 npm 就安装好了，可以使用 node -v和 npm -v查看

妹子图爬取

克隆爬虫

git clone https://github.com/xikong1995/node-crawler.git  //没安装git 可以先使用 apt install git 安装

进入爬虫

cd node-crawler

修改配置文件

微博

vim src/weibo/config.js //打开配置文件

const COOKIE = '这里填写获取到的cookie' //登录微博网页版,然后按 f12 打开调试面板，进入 Network ，刷新下网页，找个链接点开即可看到 cookie

const SCRIPT_URI = '/u/5141494199' 点开你要爬取数据的用户的主页，然后查看浏览器地址栏的域名

或 

const SCRIPT_URI = '/liuyifeiofficial'

微博配置文件

instagram

vim src/instagram/config.js //打开配置文件

const COOKIE = '这里填写获取到的cookie' //登录instagram网页版然后按照上面微博的方式获取获取

const PROXY = '这里填写代理地址'  //咱们如果是在国内服务器运行爬虫的话，爬取instagram需要添加代理才行

const USERNAME = 'riku_riku_99' //这里填写用户名

instagram配置文件

安装项目依赖

npm i  //如果太慢可以使用国内源安装，比如淘宝源 npm i --registry https://registry.npm.taobao.org

开始爬取

npm run dev weibo  //爬取微博

npm run dev instagram //爬取instagram

会在项目src目录下生成对应文件夹 src/weibo/assets/和 src/instagram/assets/

成品

抓取结果