web Crawler
信息采集,防采集,爬虫
hamish-wu
普通程序员
展开
-
数据采集 htmlunit 使用心得
HtmlUnit is a “GUI-Less browser for Java programs”. It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc… just like you do in your “normal” browser.翻译:HTMLUnit 是一个无界面的Java浏览器,可以渲染生成HTML文档,同时提供操作网原创 2021-08-11 13:57:16 · 259 阅读 · 0 评论 -
爬虫技术第六篇:java随机返回UserAgent
java随机返回UserAgentpackage com.tom.util;import java.util.ArrayList;import java.util.List;import java.util.Random;public class UserAgentUtil { private static List<String> list = new ArrayL...原创 2020-03-11 23:39:27 · 1541 阅读 · 2 评论 -
5年整理 爬虫资料
爬虫学习过程中收集的资料理性使用技术,远离非法业务。 Crawler 无头浏览器异闻录 | 岚光 Burp Suite Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容 - 华天清 - 博客...原创 2020-03-15 22:19:35 · 687 阅读 · 2 评论 -
爬虫第五篇 :Java httpclient 采集内网
很多情况下,公司的电脑是加入域的,而且上外网是要通过代理上网的,这总情况下使用httpclient访问外网时必须使用代理,并且要通过NTLM验证,所以需要在httpclient中使用NTLM协议。关于NTLM,可以参考这里。 以下给出解决此问题的代码。有些时候采集需求会是公司内部人员提出,采集内网bbs内网权限认证有时会基于NTLM所以每次请求的时候需要请求头部带上认证信息 pub...转载 2019-04-22 10:44:47 · 749 阅读 · 0 评论 -
爬虫 第三篇 (语言选择python还是java还是其他)
爬虫目前主要开发语言为java、python、c++ 有些公司也用go语言(杭州某互联网金融公司)对于一般的信息采集需要,各种语言差别不大。c、c++ 搜索引擎无一例外使用C\C++ 开发爬虫,猜想搜索引擎爬虫采集的网站数量巨大,对页面的解析要求不高,部分支持javascriptpython 网络功能强大,模拟登陆、解析javascript,短处是网页解析 python写起程序原创 2015-11-17 22:57:42 · 34741 阅读 · 4 评论 -
爬虫第四篇-爬虫对网站改版快速解决思路
采集数据时难免遇到采集网站的页面改版,快速解决页面改版对解析的影响对业务稳定性有重要影响页面改版的影响针对不同的解析网站,影响程度不一,一般资讯类影响最小,表格类和报告类影响最大资讯类网站资讯类网站的采集重在采集内容,一般提取的标题 时间和内容,页面改版对解析的影响不大,通过算法提取网页内容可以自适应网页的改版授权登录采集用户授权登录采集网站一般不会改版,一旦改版就会和以前风格完全不同,如果是采用页原创 2017-04-28 11:12:53 · 1827 阅读 · 0 评论 -
爬虫 第二篇:爬虫岗位分析
由于简历里写了三年爬虫经验,所以会收到很多公司的面试邀请。 大概各种类型的爬虫需求都接触了一遍,总结一下,看看目前爬虫岗位的需求状况。为什么选择爬虫岗位 1.待遇高 2.兴趣 3.做大数据过渡爬虫岗位是一个独特领域的细分,目前情况主要集中在北京、上海、深圳、广州、杭州以上5个城市的岗位占全国爬虫岗位的80%根据需要采集的数据和应用场景,我把爬虫岗位做了分类搜索引擎爬虫 特点:需要大规原创 2015-08-19 14:08:05 · 6617 阅读 · 0 评论 -
爬虫 第一篇
从学校开始接触web crawler ,至今2年时间。今天总结一下学习网络原创 2014-07-11 14:36:28 · 1120 阅读 · 0 评论 -
爬虫应用-从offer100比赛中采集信息
偶然看到offer100举办了一场开源软件比赛,其中有不少值得学习的项目,比赛结束之后估计就不能访问了随手写了一个爬虫,把信息采集了下来结果集:原创 2015-09-24 15:26:25 · 816 阅读 · 0 评论 -
Wget
初识Wget 今天打算自己写一个httpclient应用,看到自己半年前的代码提示自己调用httpclient都是不提倡的方法,所以写一个新的。 查看开发文档,只有在线的,源码中也没有。对 hc.apache.org查了半天,找了一个目录:http://hc.apache.org/httpcomponents-client-4.4.x/httpclient/ 开发文档都在,接下里就是下载。网上原创 2015-05-28 16:44:09 · 559 阅读 · 0 评论 -
java中Url处理
在开发爬虫的过程中会解析出Url地址,因为不同网站的不同风格,这些Url有些是相对路径,有些是绝对路径,有些是广告链接。 我们需要统一处理这些新的额Url1.过滤Url 假如我们想只采集一个网站的信息,就需要把和这个网站有关的Url放入queue 一般的方法是Regex 根据网站Url的特点编写,逐一匹配过滤Url。2.相对地址转绝对地址有些网站的Url采用相对地址,有些是绝对地址,绝对地址原创 2015-05-27 19:17:21 · 840 阅读 · 0 评论