- 博客(6)
- 资源 (22)
- 收藏
- 关注
原创 java常用的爬虫框架
目前主流的Java爬虫框架主要有Nutch、Crawler4j、WebMagic、WebCollector等。1. 分布式爬虫:Nutchgithub地址:https://github.com/andrewcao95/nutch-crawlerNutch是apache旗下的一个用Java实现的开源索引引擎项目,通过nutch,诞生了hadoop、tika、gora。Nutch的设计初衷主要是...
2019-12-31 18:51:26 46593 1
原创 常见反爬虫策略 及应对措施
一般网站从三个方面反爬虫:请求网站访问时的请求头Headers,用户行为,目标网站的目录和数据加载方式。前两个方面反爬虫策略中最为常见的,而第三个则是应用ajax(异步加载)的方式加载页面目录或者内容,增大爬虫在对目标网站形成访问之后获取数据的难度。但是仅仅检验一下请求头或者做几个ip限制显然无法达到网站运营者对anti-spam的要求,所以更进一步的反制措施也不少。最主要的大概有:Cookie...
2019-12-31 18:35:03 38649
原创 在爬虫框架scrapy中使用selenium
1. wangyi.pyimport scrapyfrom selenium import webdriver'''在scrapy中使用selenium的编码流程: 1.在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性) 2.重写spider的一个方法closed(self,spider),在该方法中执行浏览器关闭的操作 3.在下载中...
2019-12-27 20:29:35 32808
原创 selenium的介绍,win10系统配置selenium,并用python爬取网页的案例
1. selenium的介绍Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说,此种抓取方式非常有效。2. 准备工作首先需要安装 Chrome浏览器,然后到 https://chromedriver.storage.googleapi...
2019-12-25 16:03:15 32390
原创 向PostgreSQL中json中加入某个字段 或者更新某个字段的SQL语句
需求:通过SQL的方式,对JSON里面的某个字段统一处理,更新成一个新值向PostgreSQL中json中加入某个字段。例如:向users表中id为3的data列中加入 {“uptate_data”: “7”}执行SQL:update users set data = '{"uptate_data": "7"}'::jsonb where id = 3;执行效果如下图:向Po...
2019-12-20 20:23:46 37014 1
用Panda3D开发3D枪战类游戏源码,脚本可以直接运行
2023-06-13
用python3实现AI人脸识别签到打卡系统(压缩包中源码可直接运行)
2023-06-13
用python3实现个人博客系统,脚本可以直接运行 (所用技术:Flask、TinyDB)
2023-06-13
用python3实现民宿信息可视化系统
2023-06-13
用python3实现在线生鲜商城系统,脚本可以直接运行
2023-06-13
用python3实现基于深度学习的AI人脸识别系统,脚本可以直接运行(包括源码文件、数据文件)
2023-06-10
用python3实现招聘信息实时数据分析系统,包括数据文件、爬虫文件、部署文件等
2023-06-10
用python3实现房产价格数据可视化分析系统(包括采集房产的脚本、数据可视化脚本)
2023-06-10
用python3实现动态验证码,脚本可以直接运行
2023-06-08
用python3实现轻松背单词程序,代码可直接运行
2023-06-08
炫酷时钟动态案例,web浏览器打开index.html即可看到动态效果
2023-06-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人