用php写的知乎爬虫,没有任何框架。

在办公室跟同事争论谁的语言写爬虫比较优秀。我说php处理文本的能力很强大。然后跟python同事一人写了一段爬虫放在各自的阿里云服务器上。我的数据到一百多万条就被知乎拉黑。


一共四个php文件。一个sql的结构。

用到的技术:php、mysql、redis、shell脚本、linux的crontab功能。

shell脚本跟crontab功能是因为服务器内存太小需要销毁进程重新启动。


getuser.php文件:获取用户username。

zhihu.php文件:获取某个用户的详细信息。

user_sql.php文件:从redis取到用户信息存在mysql。

getoldmess.php文件:哪个用户的信息没爬取到补爬一下。


需要帮助的朋友加我qq:615742973。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值