爬虫
hi_zf
天地万物 生生不息
展开
-
爬虫学习笔记 01-02
网址池的实现原创 2020-11-30 16:00:11 · 66 阅读 · 0 评论 -
python爬虫基本概念
爬虫学习笔记 01-01原创 2020-11-29 00:13:05 · 190 阅读 · 0 评论 -
win环境下selenium设置webdriver.exe的相对路径
将selenium的webdriver文件放到resources文件夹下,并使用相对路径配置selenium使其通适这样做的好处是统一了路径在不同的电脑可以不再修改代码中webdriver的路径缺点是webdriver的版本要和Chrome的版本一致 String osName = System.getProperties().getProperty("os.name"); if (!osName.equals("Linux")) { /.原创 2020-10-12 13:31:52 · 2758 阅读 · 0 评论 -
聚焦爬虫与通用爬虫的区别
为什么要学习爬虫?学习爬虫,可以私人订制一个搜索引擎。大数据时代,要进行数据分析,首先要有数据源。对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。什么是网络爬虫?模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序。只要是客户端(浏览器)能做的的事情,原则上,爬虫都能做。意思就是,只要人类能够访问的网页,爬虫在具备铜等资源的情况下就一定可以抓取。爬虫的用途主要用:途数据采集其他用途:12306抢票、各种抢购、投票...转载 2020-06-01 09:27:54 · 1969 阅读 · 0 评论 -
对HTML中的table拆分合并的行或列
对于合并的表格 拆分 拆分后我会将上下两行合并为面积(单位:平方米) 和 面积(单位:亩) 两个字段作为属性名 , 这个方法同样适用于数据的拆分思路是先定义一个二维数组,按照td的colSpan和rowSpan,映射覆盖的二维数组public UnitBox[][] splitHtmlTable(int size, List<HtmlTableRow&...原创 2020-03-17 19:42:36 · 2936 阅读 · 2 评论 -
Charles安装与配置及https抓包
安装与配置:https://www.jianshu.com/p/d0a5e6986445/https:https://www.cnblogs.com/ceshijiagoushi/p/6812493.htmlhttps://www.jianshu.com/p/75126f57e933备注:想要抓取所有站点,只需配置为*:443即可...原创 2020-03-03 07:20:20 · 190 阅读 · 0 评论 -
cookie反爬措施的应对
有些站点再初次访问的时候会有cookie验证,会拒绝请求,因为代码使用htmlunit或者selenium浏览器的时候每一次都是全新启动所以没有cookie 这个时候重新刷新一下界面可以解决大部分问题:)注 : 不要忘了开启cookie支持(如果默认关闭或者没开的情况下)注:这个是我的个人经验,并没有深究,爬虫也没有很niubility 欢迎交流 指导 3Q...原创 2020-02-26 10:49:26 · 845 阅读 · 0 评论