Java 爬虫工程师技能列表

1,java
2,熟悉js, ajax
3,网页去重,找到网站特点
4,分布式
5,多线程
6,一种关系型数据库mysql/oraclelserver
7,正则表达式、css selector, xpath
8,DNS cache
9,TCP/IP/Http协议spacer.giftp2.010,web登录协议

10, SSO,OAuth原理

11,反爬策略
12,熟悉httpClient
13, 熟悉一些提取工具
14,搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15,熟悉XML、JSON、SOAP协议;
16,mongodb, redis, hbase, hadoop
17,文本分析,机器学习、数据挖掘、自然语言处理
18,完成网页,微博,微信,贴吧,论坛等数据信息的精准抽取
19,RPC协议
20,netty,NIO
21,HTMLUnit,PhantomJS,SlimerJS ,CasperJS
22,代理部署方案:http/socks
23,nginx, squid,jetty
24,破解ios
25,验证码,ocr


掌握一半便是熟练的爬虫开发了,全部掌握的人,还没遇到过。


交流群:177655321

欢迎高手入群





转载于:https://my.oschina.net/PagodaTree/blog/625254

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值