数据采集技术_好好Coding的博客-CSDN博客

数据采集技术

关注

信息获取和数据采集技术是指利用各种技术手段获取互联网上的信息资源，并进行处理、分析和利用的过程。其中爬虫技术是常用的数据采集手段之一。信息获取和数据采集技术在商业、科研、政府等领域都有广泛的应用，可以帮助用户高效地获取所需信息，提高工作效率和竞争力。

关注数：文章数：5 文章阅读量：9589 文章收藏量：49

作者: 好好Coding

我不懒，只是不知道说什么。

展开

不一样的配置chromedriver.exe浏览器驱动引擎方法

chromedriver.exe配置以及加载1. 最常见的chromedriver.exe环境变量配置2. 简单的配置方法IDE中你点进去看看selenium中webdriver.Chrome()类__init__文件，只有在路径缺省的情况下才会去加载PATH路径下的chromedriver啊。。。。。大哥！1. 最常见的chromedriver.exe环境变量配置今天想起来重新搞一下爬虫，打算系统复盘下相关知识和技术，在搭建开发环境的时候，有一个 selenium + webdirver 的环节，随

原创 2020-11-25 23:57:00 · 703 阅读 · 1 评论
Scrapy爬虫框架学习之XPath

一，什么是XPathXPath即XML路径语言（XML Path Language）,是一种查询语言，能在XML的树状结构中寻找到你要的节点，并使用XPath的特殊语法提取节点中的数据。是获取网页中数据的一个利器。（HTML也是一种xml）通俗的讲，XPath是一种按照“地址” 找 “人”的语言二，如何使用XPath关于XPath的语法的表达式元素请参照我的上一篇文章XPath语法元...

原创 2019-01-04 12:54:28 · 818 阅读 · 0 评论
Scrapy爬虫框架学习之Response对象

一、什么是Response对象？response对象是用来描述一个HTTP响应的，一般是和request成对出现，你用浏览器浏览网页的时候，给网站服务器一个request(请求)，然后网站服务器根据你请求的内容给你一个response(响应)。那 Scrapy中的response又是什么东西？其实这个response和上边讲到的作用一样，不过在Scrapy中的response是一个基类，根...

原创 2019-01-03 10:41:53 · 7140 阅读 · 0 评论
python数据挖掘之突破网站反爬机制

撒大声地

原创 2019-02-28 21:51:31 · 370 阅读 · 0 评论
Scrapy爬虫框架学习之CSS选择器

一，什么是CSS选择器二，CSS选择器语法三，CSS与XPath比较

原创 2019-02-28 21:57:53 · 559 阅读 · 0 评论

数据采集技术

作者: 好好Coding

不一样的配置chromedriver.exe浏览器驱动引擎方法

Scrapy爬虫框架学习之XPath

Scrapy爬虫框架学习之Response对象

python数据挖掘之突破网站反爬机制

Scrapy爬虫框架学习之CSS选择器