网络爬虫
文章平均质量分 63
LovelyBear2019
专注Java后台开发,网络爬虫开发
展开
-
反爬虫策略总结
今日终于有点时间了,总结一下网络爬虫领域比较常见的反爬虫策略,希望在我们抓取数据过程中遇到问题时,提供解决方法。话不多说,开讲:1、最为经典的反爬虫策略当属“验证码”了。因为验证码是图片,用户登录时只需输入一次便可登录成功,而我们程序抓取数据过程中,需要不断的登录,比如我们需要抓取1000个用户的个人信息,则需要填1000次验证码,而手动输入验证码是不现实的,所以验证码的出现曾经难倒了很多网络原创 2017-06-29 21:10:33 · 13037 阅读 · 2 评论 -
自动化测试工具Selenium入门
自动化测试工具Selenium入门自动化测试工具Selenium入门简介入门环境搭建代码实现一些坑简介 写过爬虫的朋友一定遇到过这样一个问题:网页的部分内容是由js(ajax)技术生成的,而这部分内容恰恰是我们想要的,并且这个ajax请求的url或者生成的cookie信息我们很难拿到。普通的爬虫工具例如HttpClient只能模拟http发送请求,我们无法拿到url或者cookie,原创 2017-11-22 20:40:46 · 38935 阅读 · 2 评论 -
正则表达式中需要进行转义的字符小结
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n' 或 ‘\r'。要匹配 $ 字符本身,请使用 \$。 ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。 * ...原创 2015-04-17 21:53:25 · 1835 阅读 · 2 评论 -
代理高匿性判断方法
代理主要包括透明代理,普通匿名代理,欺骗性代理及高匿代理等,本文将阐述如何通过请求头区分这几种代理。原创 2018-11-15 15:54:05 · 13347 阅读 · 9 评论 -
TensorFlow在MAC环境下的安装以及环境搭建
一、各大深度学习框架的优势二、安装anaconda三、安装tensorflow今天,给大家分享一下TensorFlow在MAC系统中的安装步骤以及环境搭建的操作流程。一、各大深度学习框架的优势 首先,TensorFlow底层的图模型结构清晰,容易改造;其次,支持分布式训练;此外, tensorflow可视化效果好。如果做长期项目,接触较大数据集的...原创 2018-03-21 14:37:45 · 4423 阅读 · 0 评论