知乎爬虫---总结我的Java课程设计

这次课程设计的技术点

1.Java线程池、连接池

2.JDBC编程

3.HTTPClient模拟浏览器

4.jsoup与正则表达式匹配信息

5.多cookie逃避知乎反爬

6.fiddler抓包、pc端和手机端

7.BDP个人版数据可视化分析


本来想加一个ip代理池,但知乎根据cookie预判用户,我买了10个知乎账号,目前来说够用了,我还想爬拉钩网,到时候再用IP代理池




这是我用3.6W知乎用户数据做的云图。


互联网行业的地域分布,可以看到一线城市北上广深杭几乎占了90%,杭州的比例竟然和深圳相当,已经是名正言顺的互联网城市了。


这次知乎爬虫程序并不是一帆风顺

遇到封IP的情况

遇到各种新的词汇,比如反爬,手机抓包,模拟浏览器

收获很多,最重要的是找解决方法的那些过程。





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值