JS爬虫,Java爬虫,Python爬虫与反爬虫(工具或框架,脚本)

NetDiscovery (https://github.com/fengzhizi715/NetDiscovery)  是一款基于 Vert.x、RxJava 2 等框架实现
的爬虫框架。

> JS爬虫,Java爬虫与反爬虫
会写JQuery选择器就能写爬虫,可以看看java爬虫gecco

浅谈网络爬虫爬js动态加载网页(一)- http://www.cnblogs.com/yhdino/p/3261003.html?utm_source=tuicool&utm_medium=referral
暂时的解决方案就是在爬虫服务端,开一个后台的浏览器,或者是有浏览器内核的程序,将url地址交给它去请求,然后从浏览器中将页面的元素取出,交给html解析器去解析,从而获取自己想要的信息。
抓取网页源码,并批量下载图片 JS???
java中用jsoup抓取网页源码,并批量下载图片- http://blog.csdn.net/wangcunhuazi/article/details/46287709

fengchao(蜂巢爬虫系统)- https://github.com/kanxg/fengchao
针对反爬虫问题的自动代理池组件- https://github.com/letcheng/ProxyPool
GitHub 上有哪些优秀的 Java 爬虫项目?- https://www.zhihu.com/question/31427895
零基础写java网络爬虫- http://blog.csdn.net/zhihui1017/article/details/50511241
Java爬虫,信息抓取的实现- http://blog.csdn.net/lmj623565791/article/details/23272657
java实现的爬虫,亲自编写,测试通过- http://download.csdn.net/detail/u011700203/8410597#comment
思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。
技术上使用Jsoup方便页面的解析,当然Jsoup很方便.

-- Java中使用正则表达式获取网页中所有图片的路径; Jsoup+HttpClient
public static String [] returnImageUrlsFromHtml() {  
    List<String> imageSrcList = new ArrayList<String>();  
    String htmlCode = returnExampleHtml();  
    Pattern p = Pattern.compile("<img\\b[^>]*\\bsrc\\b\\s*=\\s*('|\")?([^'\"\n\r\f>]+(\\.jpg|\\.bmp|\\.eps|\\.gif|\\.mif|\\.miff|\\.png|\\.tif|\\.tiff|\\.svg|\\.wmf|\\.jpe|\\.jpeg|\\.dib|\\.ico|\\.tga|\\.cut|\\.pic)\\b)[^>]*>", Pattern.CASE_INSENSITIVE);  
    Matcher m = p.matcher(htmlCode);  
    String quote = null;  
    String src = null;  
    while (m.find()) {  
        quote = m.group(1);  
        src = (quote == null || quote.trim().length() == 0) ? m.group(2).split("//s+")[0] : m.group(2);  
        imageSrcList.add(src);  
    }  
      
    return imageSrcList.toArray(new String[imageSrcList.size()]);  

> Python爬虫与反爬虫

美女写真套图爬虫(python)- https://github.com/why168/mmjpg
Google爬虫如何抓取JavaScript的?- http://www.jointforce.com/jfperiodical/article/4362?ref=myread
Python做一些自己喜欢的事情:Python爬虫、数据分析、自动化测试、网站、GUI游戏等。
Python爬虫工具包括:正则表达式、XPath技术、Selenium、BeautifulSoup、Scrapy等。
Python定时爬取源码- http://download.csdn.net/detail/nigelyq/9761665
Python爬虫- http://blog.csdn.net/tzs_1041218129/article/category/6370076
Script- http://blog.csdn.net/sunboy_2050/article/category/694817
Python爬虫之模拟知乎登录- https://github.com/lzjun567/crawler_html2pdf/blob/master/zhihu/auto_login.py
Twitter Scraper(Twitter 爬虫 )可以用于制作马尔科夫链- https://github.com/kennethreitz/twitter-scraper

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神-- http://www.cnblogs.com/wanghzh/p/5824181.html

-- Python爬虫与反爬虫 ,反爬虫的Robot.txt
 GitHub 上有哪些优秀的 Java 爬虫项目?- https://www.zhihu.com/question/31427895
 - Python中常见的爬虫框架:
1、Scrapy框架
2、Crawley框架
3、Portia框架
4、newspaper框架
5、Python-goose框架

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值