SPT-下载爬虫系统和数据分析(7370)职位描述:
岗位职责:
负责搜索引擎爬虫系统的开发及相关数据的分析挖掘
岗位要求:
2年以上c 编程经验,对算法/数据结构有深刻理解
熟悉linux编程和调试环境
熟悉 socket 网络编程
具备良好的团队协作能力及沟通能力
有大型分布式系统设计开发经验优先
有搜索引擎经验者优先
具有数据挖掘、自然语言处理、信息检索、机器学习、数据统计背景的优先
我们正在创建新一代的智能网页搜索应用。我们在努力寻找优秀的,在文本挖掘、信息抽取、信息检索和自然语言处理等方面的专家级的软件开发人才,帮助我们建立产品数据库来展示我们的“长尾”策略产品。
职责:
1. 负责建立业内最大最全的原标签产品目录;
2. 在不知名的非主流网站上寻找鲜为人知的与众不同的产品;
3. 同团队一起合作为用户提供最完美的体验;
4. 汇报给技术总监;
要求:
1. 精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息。
2. 熟悉数据分析的统计方法,如PMT,HMM,Naïve Bayes等。自然语言处理技巧和经验尤为重要。
3. 精通与搜索和个性化相关的机器学习算法,大规模网页聚类,分类和提取摘要。
4. 精通大规模推荐系统和内容过滤(large scale recommendation system, content based recommendation and collaborative filtering)。
5. 5年以上Java开发经验,超强的编程技巧。
6. 精通Java技术,如JDBC,servlet,web service,最好熟悉Ruby。
7. 精通关系型数据库,尤其是MySQL, 大数据量的。
8. 熟悉大规模网页爬取,深度网页爬取,熟悉nutch、hadoop等爬虫工具尤佳。
9. 有测试驱动和敏捷开发经验。
10. 能用英文进行日常工作沟通交流。