网络爬虫
文章平均质量分 85
爬虫
在下区区俗物
爱学习的俗物!
展开
-
Python网络爬虫环境的安装指南
Python网络爬虫的环境搭建相对简单,但网络爬虫的开发涉及许多技术细节。在进行爬虫开发时,你应当遵守目标网站的robots.txt规则,并尊重网站的版权和隐私政策。此外,合理控制爬取频率以避免对网站服务器造成不必要的负担。祝你在Python网络爬虫的世界中探索愉快!原创 2023-12-05 22:32:48 · 852 阅读 · 0 评论 -
深入理解网站响应码:指南与最佳实践
网站响应码、HTTP状态码、用户体验、SEO原创 2023-12-06 22:45:33 · 559 阅读 · 0 评论 -
网络爬虫之数据解析(正则、Pyquery、Xpath、Beautiful soup)
XPath 由 W3C 作为一个标准发布,被广泛应用于各种XML解析和处理技术中,比如在XSLT(Extensible Stylesheet Language Transformations)中选取数据,或者在Python的lxml库中解析HTML文档。match()方法会尝试从字符串开始的位置到字符结束的位置匹配正则表达式,如果匹配,返回匹配的结果,不匹配返回None。是一个用于解析HTML和XML文档的Python库,它提供了与jQuery类似的语法,使得从文档中提取信息变得简单快捷。原创 2023-12-17 21:58:44 · 1559 阅读 · 0 评论 -
网络爬虫之数据存储方式(json、csv、mysql)
不过所有记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式,它比 Excel 文件更加简洁,XLS 文本是电子表格,它包含了文本、数值、公式和格式等内容,而 CSV 中不包合这些内容,就是特定字符分的纯文本,结构简单清晰。数组在JavaScript 中是方括号包裹起来的内容,数据结构为["Java""JavaScript",“vb”...] 的索引结构在Javascript 中,数组是一种比较特殊的数据类型,它也可以像对象那样使用键值对,但还是索引用得多。同样,值的类型可以是任意类型。原创 2023-12-19 20:08:07 · 2295 阅读 · 0 评论 -
网络爬虫之Ajax动态数据采集
Ajax,全称为 Asynchronous JavaScript and XML,即异步的avaScript 和 XML,它不是-门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。在这个过程中,页面实际上是在后台与服务器进行了数据交互,获取到数据之后,再利用JavaScript 改变网页,这样网页内容就会更新了。原创 2023-12-21 09:36:29 · 4089 阅读 · 0 评论 -
网络爬虫之多任务数据采集(多线程、多进程、协程)
进程:操作系统中资源分配的基本单位线程:使用进程资源处理具体任务一个进程中可以有多个线程:进程相当于一个公司,线程是公司里面的员工。原创 2023-12-22 22:09:05 · 2101 阅读 · 0 评论 -
网络爬虫之金融数据前后端实现
采集基金公司的数据单线程爬虫,用requests进行处理。原创 2024-01-04 15:47:56 · 873 阅读 · 0 评论 -
Selenium的使用
Selenium 是一个自动化测试工具,它主要用于自动化网络应用程序的测试。不过,除了测试之外,它也常用于自动执行各种浏览器操作,比如自动填写表单、抓取网页数据、点击、下拉等。同时还可以获取浏览器当前所呈现的页面的源代码,做到可见即可爬,对于一些JavaScript动态渲染的页面来说,非常有效。原创 2024-01-12 23:36:52 · 1491 阅读 · 0 评论