JS爬虫，Java爬虫，Python爬虫与反爬虫（工具或框架，脚本）

最新推荐文章于 2024-06-27 15:32:41 发布

desaco

最新推荐文章于 2024-06-27 15:32:41 发布

阅读量3.2k

点赞数

分类专栏：脚本(Script)语言与爬虫等

脚本(Script)语言与爬虫等专栏收录该内容

4 篇文章 0 订阅

订阅专栏

NetDiscovery (https://github.com/fengzhizi715/NetDiscovery) 是一款基于 Vert.x、RxJava 2 等框架实现
的爬虫框架。

> JS爬虫，Java爬虫与反爬虫？
会写JQuery选择器就能写爬虫，可以看看java爬虫gecco

浅谈网络爬虫爬js动态加载网页（一）- http://www.cnblogs.com/yhdino/p/3261003.html?utm_source=tuicool&utm_medium=referral
暂时的解决方案就是在爬虫服务端，开一个后台的浏览器，或者是有浏览器内核的程序，将url地址交给它去请求，然后从浏览器中将页面的元素取出，交给html解析器去解析，从而获取自己想要的信息。
抓取网页源码，并批量下载图片 JS？？？
java中用jsoup抓取网页源码，并批量下载图片- http://blog.csdn.net/wangcunhuazi/article/details/46287709

fengchao（蜂巢爬虫系统）- https://github.com/kanxg/fengchao
针对反爬虫问题的自动代理池组件- https://github.com/letcheng/ProxyPool
GitHub 上有哪些优秀的 Java 爬虫项目？- https://www.zhihu.com/question/31427895
零基础写java网络爬虫- http://blog.csdn.net/zhihui1017/article/details/50511241
Java爬虫，信息抓取的实现- http://blog.csdn.net/lmj623565791/article/details/23272657
java实现的爬虫，亲自编写，测试通过- http://download.csdn.net/detail/u011700203/8410597#comment
思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。
技术上使用Jsoup方便页面的解析，当然Jsoup很方便.

-- Java中使用正则表达式获取网页中所有图片的路径； Jsoup+HttpClient
public static String [] returnImageUrlsFromHtml() {
List<String> imageSrcList = new ArrayList<String>();
String htmlCode = returnExampleHtml();
Pattern p = Pattern.compile("<img\\b[^>]*\\bsrc\\b\\s*=\\s*('|\")?([^'\"\n\r\f>]+(\\.jpg|\\.bmp|\\.eps|\\.gif|\\.mif|\\.miff|\\.png|\\.tif|\\.tiff|\\.svg|\\.wmf|\\.jpe|\\.jpeg|\\.dib|\\.ico|\\.tga|\\.cut|\\.pic)\\b)[^>]*>", Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(htmlCode);
String quote = null;
String src = null;
while (m.find()) {
quote = m.group(1);
src = (quote == null || quote.trim().length() == 0) ? m.group(2).split("//s+")[0] : m.group(2);
imageSrcList.add(src);
}

return imageSrcList.toArray(new String[imageSrcList.size()]);
}

> Python爬虫与反爬虫

美女写真套图爬虫（python）- https://github.com/why168/mmjpg
Google爬虫如何抓取JavaScript的？- http://www.jointforce.com/jfperiodical/article/4362?ref=myread
Python做一些自己喜欢的事情:Python爬虫、数据分析、自动化测试、网站、GUI游戏等。
Python爬虫工具包括：正则表达式、XPath技术、Selenium、BeautifulSoup、Scrapy等。
Python定时爬取源码- http://download.csdn.net/detail/nigelyq/9761665
Python爬虫- http://blog.csdn.net/tzs_1041218129/article/category/6370076
Script- http://blog.csdn.net/sunboy_2050/article/category/694817
Python爬虫之模拟知乎登录- https://github.com/lzjun567/crawler_html2pdf/blob/master/zhihu/auto_login.py
Twitter Scraper（Twitter 爬虫）可以用于制作马尔科夫链- https://github.com/kennethreitz/twitter-scraper

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神-- http://www.cnblogs.com/wanghzh/p/5824181.html

-- Python爬虫与反爬虫，反爬虫的Robot.txt
GitHub 上有哪些优秀的 Java 爬虫项目？- https://www.zhihu.com/question/31427895
- Python中常见的爬虫框架：
1、Scrapy框架
2、Crawley框架
3、Portia框架
4、newspaper框架
5、Python-goose框架

desaco

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
JS爬虫，Java爬虫，Python爬虫与反爬虫（工具或框架，脚本）

NetDiscovery (https://github.com/fengzhizi715/NetDiscovery) 是一款基于 Vert.x、RxJava 2 等框架实现的爬虫框架。&gt; JS爬虫，Java爬虫与反爬虫？会写JQuery选择器就能写爬虫，可以看看java爬虫gecco浅谈网络爬虫爬js动态加载网页（一）- http://www.cnblogs.com/yhdi...
复制链接

扫一扫

专栏目录