爬虫
文章平均质量分 93
南七小僧
C9博士,前百度、联想技术产品总监。深入理解人工智能技术研发与应用。
展开
-
python自动化测试工具selenium使用指南
selenium是网页应用中最流行的自动化测试工具,可以用来做自动化测试或者浏览器爬虫等。官网地址为:https://www.selenium.dev/。免费开源轻量级,不同语言只需要一个体积很小的依赖包支持多种系统,包括Windows,Mac,Linux支持多种浏览器,包括Chrome,FireFox,IE,safari,opera等支持多语言,包括Java,C,python,c#等主流语言支持分布式测试用例执行。原创 2024-07-17 00:35:40 · 101 阅读 · 0 评论 -
巨擘科技|国内数据交易现状梳理及典型交易平台对比分析(附建设方案)
以美国为例,其数据交易平台运营以“第三方角色”为主的纯平台模式进行,即第三方数据交易平台,此类平台以**提供一个数据供应方和需求方之间交易的通道为首任,**且平台数据都是由数据交易方提供,平台自身不参与数据交易业务,而是更加关注平台的监管职责,确保交易过程的合规性与安全性。4,数据交易平台的构建离不开双边市场要素培育,政策导向刺激市场时,需要从供需两侧同时着手,利用平台的网络效应特征,吸引更多的数据交易平台利益相关方,让供需双方精准对接,让平台迅速成长起来。公共数据开放程度较低,未能充分挖掘其价值。原创 2023-08-30 11:15:04 · 325 阅读 · 0 评论 -
使用proxy_pool来为爬虫程序自动更换代理IP | 开源IP代理
之前做爬虫的时候,经常会遇到对于一个网页,使用同一个IP多次会被禁掉IP的问题,我们可以自己手动更换代理IP再继续这个问题但多少会有点麻烦,我对于一个懒人来说,手动更换IP太麻烦,而且也不符合程序员懒惰的美德,于是便有了下面的故事。proxy_pool 是一个开源的代理池,聚合了各大免费的ip 代理池。当自己的爬虫因为爬的太快了 ip 被封了的时候,代理池就可以派上用场啦。原创 2023-08-27 23:08:21 · 828 阅读 · 0 评论 -
HTTP 代理原理及 Python 简单实现
HTTP 代理是一种网络代理服务器(Proxy Server),它能够作为客户端与 HTTP 服务器之间的中介,它的工作原理是:当客户端向 HTTP 代理发送 HTTP 请求时,HTTP 代理会收到请求。HTTP 代理会将请求转发给目标 HTTP 服务器。目标 HTTP 服务器处理请求并生成响应。HTTP 代理将响应转发给客户端。通过使用 HTTP 代理,客户端可以访问其他服务器的资源,而不需要直接连接其他服务器。原创 2023-08-27 22:16:59 · 887 阅读 · 0 评论 -
python爬虫基础入门——利用requests和BeautifulSoup
爬虫的本质就是从网页中获取所需的信息,对网页的知识还是要有一点了解。百度百科对HTML的定义:HTML,超文本标记语言,是一种标识性的语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。原创 2023-07-24 15:49:04 · 985 阅读 · 0 评论 -
TextCNN 与 FastText 文本分类实战【Embedding|Word2Vec】
具体的理论知识,可以看看前面几篇文章,有详细介绍,这里直接po代码了# -*- coding: utf-8 -*-""" @Author: xkk @Date: 2018-09-07 12:42:37 @Last Modified by: xkk @Last Modified time: 2018-09-07 12:42:37"""import jiebaimpo...原创 2018-09-08 19:30:12 · 4033 阅读 · 0 评论 -
爬虫小记第一步【爬虫】【多线程】【python】
起因:之前做JAVA的时候,我一般都拿Jsoup来写爬虫,后来做Python的时候,一般是UrlLib Request+BS4 或者 Selenium来做爬虫,用这种方法,可以很轻松的抓到数据【但数据比较局限在简单的形式,比如 不能适应AJAX,不能有JS操作(Selenium等仿真模拟器的方法是可以做的)】就这样通过简单的爬虫,我抓了一年又一年的数据,直到前段时间要抓海量JD数据的时候...原创 2018-09-07 13:15:59 · 230 阅读 · 0 评论